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作者筒介 


哈里斯 • 库珀，哈佛大学博士后，现为密苏里大学（哥伦比亚 
分校）心理学教授和社会心理学项目带头人。曾从教于科尔盖特 
大学 （Colgate University ) ，是俄勒冈大学客座教授，斯坦福大学和拉 

塞尔 • 塞奇基金会的访问学者。美国心理协会和美国心理学会成 
员。同时兼任7个心理学教育杂志的顾问编辑。也是美国心理学 
会雷蒙德8 • 於特尔职业项 B 研究艾的首位获得者，并荣获美国心 

理学会 （ AERA) 的解释学奖学金（ Interpretive Scholarship Award ) 。 



译者前言 


当今社会，随着新的科学技术、研究方法和分析 X 具的不断发 
展，有关数据分析和统计技术相结合的研究理论有了较大发展，其 
运用也日益普遍。许多新的分析技术已经应用到科学研究的各个 
领域中。然而研究方法问题在我同还相对落肟，仍极少冇好的作 
品能够有效地指导人们做综述研究， B 卩如何发现、评估及综合以往 
的研究。 

1988年，著名心理学家，美国密苏里大学（哥伦比亚分校）的哈 
里斯 • 库珀教授出版 r 《如何做综述性研究》一书。该书逮立在对 
已有的方法指南不断丰富和完善的基础上，主要介绍 r 如何在社 
会学、心理学、统计学和医学等领域做综述研究。这本书向出版以 
来，受到了社会科学界同行的好评，为研究者做好综述研究「作提 
供了较科学、系统的指导。 

库珀教授认为，综述的类型主要包括文献综述 （literature re ¬ 
view ) 、研究述 i 平 （research review ) 、综合性研究述评 （integrative re ¬ 
search review ) 、研究综述 （research synthesis ) 以及元分析 （ ineta - 
analysis ) 等。同其他词语相比，这些术语有的内涵宽泛一些，冇的 
狭窄一些，但它们中的一些在实际中是可以交互使用的、在木朽 
中，他主要强调的综述类型是“研究综述”。这是 W 为“研究综述” 
在社会科学中是文献综述的最普遍形式，它除了自 L ： 独有的特点 
外，还涵盖了在其他综述中显现的所有特征。同时，他之所以选择 
使用“研究综述”这个标题，是因为这个标题在《研究综述手册》 

(The Handbook of Research Synthesis ) ( Cooper & Hedges ，1994 ) —- |5 

中也曾用过。 

研究综述是我们做研究的基础。它分析和描述了前人在某一 
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研究领域已经做了哪些 T . 作，研究进展到何种程度，它要求综述者 
对国内外相关研究的动态、前沿性问题做出较详细的综述，并提供 
参考文献。一篇好的研究综述能够反映当前某一领域中某分支学 
科或重要专题的最新进展、学术见解和建议，不仅为科研工作者完 
成科研工作的前期劳动节省了用于査阅分析文献的宝贵时间，而 
还有助于科研人员借鉴他人成果、把握主攻方向以及领导者进 
行科学决策。正如库珀教授指出 的：“ 研究者对以往研究中感兴趣 
的主题领域所做的分析，是每一项科学研究的起点。没冇这一步， 
研究者就不可能综合、全面地了解这个世界。他们也不能在前 
人努力的基础上取得成就（参见本书序言） 

库珀教授将本书分为匕个部分， 洋细介 绍了有关研究综述的 
内容和写作方法。他首先说明了本书写作的冃的，介绍了有关的 
概念、定义及综述的范_，扼要 说明了 有关研究主题的现状和争论 
焦点，使读者对全文叙述的核心问题有了一个初步 了解。 其次，在 
本书的主体部分，他从“问题怎样形成”入手，介绍了在研究综述过 
程中，怎样搜索文献、评估和分析数据及解释和展示研究结果。通 
过对这些问题的回顾和展望，能使读者对研究综述的过程更加明 
晰。最后，他对全文的主题进行了总结，说明了严格、系统的研究 
综述是研究者从事社会科学研究至关重要的一步。 

经过库珀教授的修汀，研究综述的方法在科学件、规范性和实 
用性等方面得到了进一步提升。作为一本研究综述方法指南 ， TH 
如库珀教授所言 ：“开 始创作本书时，我旨在认为做研究综述是一 
个有益的资料搜集训练过程，同时，这一过程需要依靠科学标准来 
衡量。因为随着实证研究的发展和可获取信息量的不断增多，如 
果我们无法使这一研究过程更加系统化和标准化，那么研究综述 
的结论将变得令人难以置信。对于需要更多严密研究综述的社会 
科学家来说，我希望书中介绍的概念和方法已经被读荇们所接受， 
并认为是切实可行的、值得信赖的。在关注讨论某些特定领域和 
测试领域存在的争议时，这些方法能够使学者们对这些争论和异 
议达成共识。随着研究综述在各学科知识中角色的不 断提汗 ，如 
果社会科学家希望他们的研究主张能够保持客观、可信，耶么对研 
究方法做些适当调整是不可避免的。同时，这也将帮助社会科学 
家更好地解决当今社会存在的问题，并增强他们对这个社会的理 
解。”（参见+书第186贞）我国著名 H 会学家风笑天教授也 指出： 
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“学习和掌握社会学研究方法，将有助于我们理解社会学及相关社 
会科学的基本内容，也有助于我们理解社会学家以及社会科学家 
在探索社会世界的奥秘、回答各种有关人类社会、人类社会行为以 
及各种社会现象和社会问题时所做的一切。” （ 风笑天 ： 《社会学研 
究方 法》 （第二版），中国人民大学出版社，2005,第一版序，第4页） 
对于一项研究而言，通过写作研究综述，有利于提高研究者的 
归纳、分析、综合能力以及独立工作能力和科研能力。学习研究综 
述的写作方法、技巧，能够为他们开展更多有效和高效率的研究提 
供有益帮助。本书可以说是库珀教授对20年前所形成的方法体 
系的创新。它以一种客观、系统、科学的研究方法代替了主观、简 
单叙述性的研究方法。通过阅读本书，读者们将学会如何进行一 
种符合科学规律和准则的综合性研究。同时，库珀教授也提醒广 
大读 者：“ 当今社会，科学技术得到飞速发展，不论是在自然科学领 
域还是人文社会科学领域，我们每时每刻都面临着新的问题。由 
于分析方法和丁.具的不断完善和发展，每一个学习者都应该注意， 
本书里所介绍的各种原理、方法、程序、步骤、技术并不是一成不变 
的，也要随着实际问题、客观情况和具体条件的不同而做出相应调 
整。这种改变既是正常的，也是必须的。” 

刘洋 

2010年2月于北京 



第 3 版序言 


研究者对以往研究中感兴趣的主题领域所做的分析，是每一 
项科学研究的起点。没有这一步，研究者就不可能综合、全面地了 
解这个世界，他们也不可能在前人努力的基础上取得成就。在科 
学研究中，孤立的研究者注定要重复前辈们所犯的错误。 

至今，仍极少有指南能够有效地指导人们怎样做综述性研 
究——如何发现、评估及综合以前的研究。这本书将填补此项空 
白。它可以帮助那些掌握了基本研究方法和具有统计知识背景的 
社会科学家、行为科学家和医学科学家更好地从事研究。 

本书介绍的有关研究综述的方法是对20年前形成的方法体 
系的综合和创新。这本书以一种客观、系统的研究方法代替了主 
观、简单叙述性的研究方法。通过阅读本书，读者将学会如何通过 
符合科学原理和准则的方法对研究进行综合。本书所要达到的目 
的是形成这样一种研究综述 ：它可 以被其他人重复使用，能够得到 
学者们一致认可，并在一个具有建设性的模式中聚焦争议。最重 
要的是，在完成研究综述时，这种方法的使用者会感到他们的研究 
中包含的知识比较丰富，并相信他们将要进行的原始研究会对该 
领域有所贡献。 

研究综述的科学方法已迅速得到广大研究者的认可。在这三 
个版本之间，本书介绍的研究方法从存有争议到逐渐被大家所接 
受。事实上，在当今众多领域，这种研究方法是必须的。近年来， 
综述研究技术也取得了进步，尤其是围绕着文献检索技术的变化、 
发展特別引人注目。元分析的理论基础——研究的统计合并，已 
得到了较快发展，并且此种方法的运用已经越来越普遍。在描述 
研究结果时，许多新技术目前已经得以应用。方法论学者已经提 



VI S 万•卷方注 如何做综述讎究 

出了一些方法，这些方法使综述更能经受得住来自各方面的 批评。 
这些变化在第3版中均得以体现。 

一 些机构和个人对本书三个版本的写作工作都给予了鼎力支 
持,，首先，在本书的第1版和第3版手稿的准备过程中，美网联邦 
教育部提供了研究支持。在此，我要对我以前带过的七位研究生 
致以特别的感 谢：凯 西 • 安德森 （Kathryn Anderson ) 、布兰德 • 布什 
曼 （Brad Bushman ) 、莫林 • 范得里 （Maureen Findley ) , h - 奥特柏 
切 （Ken Ottenbacher ) 、帕梅 拉 • 黑兹尔里格 （Pamela Hazelrigg ) % 
大 P . • 汤姆 （David Tom ) 和朱莉 • 于 （Julie Yu ) 。在我的指诗下， 
他们每人在各自感兴趣的领域都完 成了一 项研究综述。他们已完 
成的研究工作都成为书中的案例，其中有三项研究成果被应用到 
当前版本以阐释一些抽象的观点。我还要感谢 =.位 图书馆咨间 
员，吉恩迈尔 • 弗莱瑟 （Jcanmarie Fraser ) 、凯思琳 • 考娜斯 （ Kath ¬ 
leen Connors ) 和朱蒂 • 帕拉迪 （Judy Pallard ) ，在文献搜索过程中， 
他们提供了帮助。拉里 • 赫舒斯 （Larry Hedges ) 检查了本书所列 
举的统计方法。还有三位研究生，辛迪 • 克纳汉 （Cyndi Kernah - 
an ) 、劳拉 • 穆克伦布拉克 （Laura Muhlenbruck ) 和杰夫 • 瓦伦丁 
(Jeff Valemine ) ,他们阅读了本书并进行了有效反馈。凯茜 • 卢伯 
琳 （ Cathy Luebbering ) 和帕特 • 强克斯 （Pat Shanks ) 对本朽进行广 

录入和再录入，并校对了本书的手稿。衷心感谢这些朋友和同事 
们。 


哈里斯 • 库珀 （Harris Cooper) 
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第 1 章界定了术语“研究综述 （research synthesis ) ”的定义，说 

明了 关注“ 研究综述”的必要性，描述了研究综述所要经历的五个 
阶段，同时介绍了后面章节中将讨论的四个研究综述案例。 



如何做综述性研究 


人们获取知识需要相互之间的协助和支持。在科学研究 
上花费大量的时间，最终也可能只会解决无穷困惑中的毫厘之 
末。任何单独研究的价值，都与以前所做的工作和研究的固有 
特征紧密相关。在众多研究中 ，一 些研究之所以受到了比其他 
研究更多的关注，是因为它们解决（或提出）的问题非常重要， 
而并非这些研究本身就是解决问题的办法。 

关注研究综述 ® 的必要性 

考虑到科学知识积淀的特性，以往大量真实可信的研究是 
构建有序知识体系的必要条件。然而，直到最近，对 T 研究者 
应该怎样发现、评估及综合已有的研究，社会科学方法论学家 
很少关注。随着社会科学研究中研究数 M 的激增，研究者所需 
要的严格、适当的综述方法的缺失就愈加明显。随着研究数量 
不断增长，就越需要大量真实可信的研究综述。 

当今，研究者获得社会科学信息的能力也发生了巨大变 
化。特别是由于电子计算机和在线网络搜索文献技术的应用， 
极大方便了人们对以往研究的检索。如果科学家们知道如何 
使用这项技术，那么，利用电子计算机迅速浏览研究摘要的方 
法，就会大大提高他们获得信息的能力。 

最后，随着社会科学内部日益增长的专业化水平的逐步提 
高，研究者对已有的、大量真实可信的研究综述的需求也日渐 
增多。目前，除了在社会科学家们特别感兴趣的若干个主题领 
域之外，由于受时间的限制，众多科学家不可能时刻把握原始 
研究的最新发展动态。三十年前，针对心理学研究领域的这种 
状况，加维和格里菲思 （Garvey & Griffith ，1971 ) 写道： 

个别科学家正在超负荷地接收科学信息。“信息危 


①译者 注 ：“ research synthesis 0 一词，从广义上可译为 “ 研究综述 •’ 或 “ 综述性研究”， 
二者都可用于说明我们在做社会科学研究时所应具有的一个研究阶段，主要是为了对 
前人所做的研究进行总结、 0 顾在本书中，二者可交亙使用 . 既指一种研究过程，又指 
一种研究状态，并无细分。 
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机”的警报已经响起，因为在信息量倍增的某一时期，个 

别心理学家不堪重负，这就导致了他们不能紧跟信息时 

代的发展，吸收所有与其科研领域相关的最新信息。 
( p .350) 

三十年前的状况仍是今日之现实。 

本书的目的和前提 

本书的目的主要是介绍在社会科学、行为科学、医学领域 
做研究综述的方法。为了形成全面的综合性研究综述，本书将 
运用“声音数据 （sound data ) ”的基本原则，指导研究者如何综 

合与某一主题相关的以往的研究。无论研究者做的是原始研 

究 （primary study )，还是研究综述 （research synthesis )，都必须 

遵守严格、系统的研究原则。不管怎样，这两种类型的研究，为 
了达到研究目的，都需要使用精确的技术。 

本书描述的多种方法之中蕴含着一个重要前 提：即 把各个 
单独的研究项目综合成一个连贯的整体，这涉及知识效度的推 
论问题，也涉及如何从原始数据分析中推导出结论。.当然，从 
研究综述中不能想当然地推断出结论的效度，它必须依据科学 
标准进行评估。一位做研究综述的社会科学家会做多种决策， 
每一种决策都可能会影响他（或她）的研究结果。因此，要使研 
究综述中的大量社会科学信息真实、可信，综述者就必须把严 
格的方法标准应用于其研究过程中。 

在原始研究中，人们非常关注效度问题 （Bracht & Glass , 
1968 ； Campbell , 1969 ； Campbell & Stanley , 1963 ； Cook & Camp ¬ 
bell ,1979) 0 然而，至今，在评估综述结果的效度时，社会科学 
中则缺少一种系统指南来指导概念化的综合研究过程。本书 
描述了近年来刚刚出现的一些系统性研究方法。 
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文献综述的定义 

本书描述的综述类型，可以用很多意思相近的术语来表 
示。这些术语包括文献综述 （literature review )、研究述评 （ re ¬ 
search review ) 、综合性研究述评 （integrative research review ) 、研 
究综述 （research synthesis ) 以及元分析 （ meta - analysis ) 。虽然， 

同其他的术语相比，这些术语有的内涵宽泛一些，有的内涵狭 
窄一些，但它们中的一些在实际中是可以交互使用的。 

外延最宽泛的术语是文献综述。文献综述一般是以较为 
详细的独立研究工作，或是以新的对原始数据研究报告简介的 
形式出现。当文献综述作为独立的新数据出现时，它有许多不 
同的焦点、目标、视角、写作策略、组织结构和阅读者 （ Cooper , 
1988)。例如，文献综述可以聚焦于研究结果、研究方法、理论 
和应用程序等。它可以试着结合别人做的事或说的话，点评以 
前学者的研究，构建相关主题领域的联系，辨析一个或者所有 
领域的中心问题。 

一般情况下，介绍一个新的原始研究的文献综述范围是十 
分狹窄的。它被限制在一些与新研究所阐述的特定议题相关 
的理论研究或实证研究中。 

科学文献屮最常出现的是合并两个特殊焦点和目标的文 
献综述。第一种类型的文献综述被称为研究综述、综合性研究 
述泮，或研究述评。研究综述主要关注实证研究，通过从已有 
的独立研究中，推导出用来描述相关或相同假设的整体结论， 
寻求总结以往的研究成果。研究综述者期望能描绘出相关领 
域知识的全貌，并强调以往研究中遗漏的或尚未解决的甫要问 
题。从读者的视角看，研究综述的目的在于“弥补以前研究中 
遗漏的郃分” （ Price ， 1965, P . 513) 并且用于指导以后的研究， 

所以它包含了最大量的新信息。 

第二种类型的文献综述是理论综述 （theoretical review ) c 

这里，综述者要用给定的理论解释一种特定的现象，并比较它 
们外延、内在一致性及预测实质。这种理论综述一般包括以 F 
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几点：对已经实施或提出的关键性试验 （critical experiment ) 的 
描述，评估哪种理论与已知的关系联系最紧密，有时还包括对 
不 N 的理论、摘要、观点进行综合、总结和创新。 

大多数情况下，一篇综合性的文献综述会表达若干个问 
题。研究综述最常见，然而，理论综述通常包含了一些研究综 
述。研究综述一般不描述多重、相关假设。一篇综述可能会分 
析、研究几个不同的自变 M 、预测变量和一个独立的因变量、标 
准变量之间的关系。例如，布朗 （Brown ,1996) 总结了几种 T 作 
投入的研究，他认为影响人们工作投人的因素主要包括 ：人格 
变量、职业特征、监督变量及角色认知。同时 ，一 篇综述会试着 
总结一系列与假设相关的研究。哈里斯和罗森塔尔 （Harris & 
Rosenthal , 1985 ) 首次研究总结了“期望”如何影响了期望持有 

人的行为，这种行为乂如何影响 H 标的行为，进而，他们研究了 
人际期望效应的调节作用。 

本书主要强调的是“研究综述”。不仅因为研究综述在社 
会科学中代表了文献综述的最普遍形式，而且除了自己独有的 
特征外，它还包括出现在其他综述中的所有特征。同时，在所 
有这些综述类型中，我选择使用了“研究综述”这个标题，是因 

为它在《研究综述手册》 （ Handbook of Research Synthesis ) 
(Cooper & Hedges ，1994) 一 书中也曾使用过。那本书中描述的 
方法与本书描述的方法相一致，但却运用的是更卨级的描述方 
式。元分析这一术语，常常是研究综述或研究述评的同义词。 
在本书中，综述者常常用这一术语来描述使用统计合并研究结 
果的定量分析方法（本书将在第5章描述这些方法）。 

研究综述的阶段 

社会科学方法论教科书把研究综述看作是一组序列式的 
活动。虽然方法论学家们对研究阶段的界定多少存在着一些 
争议，但在具有重要特征的阶段划分上，还是能达成共1只的。 
方法论学家们也认为这些序列式的阶段并不是固定不变 的：处 
于实际研究工作中的研究者，可能经常会跨越或宵略一个或多 
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个阶段 （ Judd ， Smith ，& Kidder ， 1991 )。 

在本书中，研究综述的过程可以概括为五个阶 段：① 问题 
形成; ②数据搜集或文献 检索； ③数据评估，即评估研究的质 
暈; ④分析和 解释； ⑤表述研究结果。研究综述的每个阶段都 
承载着一项与原始研究相似的功能。例如，在原始研究和研究 
综述中，“问题形成阶段”包括界定我们感兴趣的变最，“分析 
解释阶段”涉及决定哪种结果是显著的。综述者就像原始数据 
的收集者，就怎样实施研究，他们会做出不同的选择。方法论 
的不同也会导致结论的不同。尤其是，在研究综述的各个阶 
段，选择使用不同的方法论可能会增强或削弱结论的可信性， 
或者，用更科学的术语解释，就是会产生“效度威胁”（“效度” 
的定义将在第4章介绍）。 

在表 1.1 中，总结了综述过程中每一阶段的功能、差异来 
源、对效度的潜在威胁问题。在接下来的几章中，我将会逐一 
地详细分析。 

问题形成阶段。 形成（或提出）问题，是任何研究工作的开 
端。在问题形成过程中，既给出了包含在研究屮变量的抽象定 
义，乂给岀了具体定义。在此阶段，研究者 会问： “我要研究的 
概念是什么”，“表达这些概念的操作是什么”。研究者必须判 
定如何将相关的材料与不相关的材料区别开来。 

在第2章中，我将分析综述者在“问题形成阶段”遇到的问 
题。这些讨论主要回答的是下列 问题： 

1. 是什么因素影响综述者对特定研究的概念相关性的 
判断？ 

2. 综述者如何处理涉及两个或多个自变量相互作用的 
假设？ 

3. 在问题形成阶段，已有的研究起什么样的作用？ 

在一个已判断的与问题领域相关的实证研究中，综述者应 
该搜集哪些信息，第2章将会提出一些具体建议。 


文献检索阶段。 数据搜集阶段主要是对作为研究对象的 
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8 纟趸怠 方注 如何做综述性研究 


“群体要素”作出选择。在原始研究中，研究目标一般包括个体 
或群体。在研究综述中，由于综述者要在两个研究目标中做出 
推断，所以确定“冃标群体”是比较复杂的。第一，他们希望累 
积的结果能够反映出有关这一问题所有先前研究的成果。第 
二，他们想要使归纳的研究普遍适用于关注某一主题领域的个 
体或群体。 

在第3章，我仔细讨论了检索文献的方法，对社会科学家 
来说，这个讨论包括了一系列可以信赖的研究资源，怎样使用 
这些最重要资源的方法以及每种资源中包含的信息偏差。 

数据评估阶段。 搜集完数据以后，研究者会对数据的质量 
做出关键性判断。在相关数据中，根据每个数据点与所研究问 
题的相关性，对每项数据做出分析评估，以决定该数据是否适 
用。如果 +合适 ，这种数据要么弃用，要么降低其可信度。例 
如，原始研究者严格检查每个研究参与者是否严格遵守了研究 
协议。通过评估研究的方法论，研究综述者就可以判断在研究 
中贯穿的方法论是否合适。 

在第4章，我主要 讨论了 如何评估研究质量。我也关注质 
量判断的偏差并且对评分者间信度 （ interjudge reliability ) 的评 

估提出了一些建议。第4章还包括对如下问题提出的建 议：当 
研究报杏不可信时，综述者该怎 么办； 当得到的报告没有需要 
的信息时，综述者该怎么办。 

分析解释阶段。 在此阶段，研究者将搜集的单独数据点纳 
人到一篇对这一问题的统一声明中。此阶段要求研究者将系 
统数据模式 （systematic data patterns ) 与“噪声 （ noise ) ” 或“偶然 
波动 （chance fluctuation ) ”区别开。在原始研究和研究综述中， 
这一过程都涉及统计方法的应用。 

在第5章，我将解释一些合并单独研究结果的方法。同时 
说明了如何估计关系的大小或等级。最后，我介绍了一些方 
法，这些方法主要分 析了为 什么不同的研究会导致不同的关系 
强度。 

公开发表阶段。 创建一个用来描述研究报告的公用文裆， 
这是完成一 I 贞研究所要努力的方向。在第6章，我会具体说明 



一些撰写研究综述的方法。 
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研究综述的四个案例 

在此，我选择了四个研究综述来说明其实际应用。这四篇 
综述的主题覆盖了较宽的社会科学研究领域，包含了不同种类 
的定性研究。这四个综述涉及了不同的概念变量或操作变量。 
虽然研究主题不同，但它们研究的范围已足够宽泛了。不同学 
科的读者会发现这四个案例均具有代表性，即便在个别研究领 
域中，研究者即使没有比较宽泛的文化背景知识，也可以从中 
得到指导。因此，简要地介绍每个案例对我们从事研究将大有 
裨益。 

家庭作业对学习成缋的影响 （ Cooper ， 1989)。同正规的学 
校教育一样，放学后要求学生做家庭作业，是一种比较古老的 
做法。从某种意义上说，家庭作业的效果，仍旧是一个较有争 
议的问题。在20世纪，对家庭作业的公众讨论此起彼伏。已 
有的家庭作业研究总结道•.学生做家庭作业对提高他们的学习 
成绩具有积极效果或者没有效果，研究结果通常是非确定性 
的。有时，为了得出一般性结论，众多的环境变最就成为影响 
家庭作业效果的调节因素。 

查阅文献时，这种例证性的综述展示了促进家庭作业研究 
的 1() 个不同问题。3个问题论述了家庭作业是否有效果，7个 
问题论述了家庭作业方法的变化（例如，布置家庭作业的效果 
等级）。其中两个关于家庭作业总体应用的问题 涉及： 做家庭 
作业的学生是否比不做家庭作业的学生，或在课堂 K 受到监督 
学习的学生成绩更好？第三个问题牵涉的是，学生做的家庭作 
业数量是否与他们的成绩成正比？这里把分析第--个问题的 
研究结果作为例子，做家庭作业的学生成绩果真比不做家庭作 
业的学生或其他没有辅助性训练的学生好吗？ 

实验室实验中人际期望效应的人格调和 （personality mod ¬ 
erators )(Cooper & Hazelfigg ，1988 ) 。社会心理学的一^大发现 



10 、如何做综述性研究 

是，一个人对他人的期望能影响到他人的行为。“人际期望效 
应”的实证检验，首次在一系列实验中得到实施 C . 有时，“天真 
的受试者”认为自己在成功状态下照的照片效果好，失败状态 
下照的照片效果不好。实际上，无论是成功还是失败，照片的 
效果都是一样的。研究结果显示，影响他们心理认同的主要因 
素是受试者想要获得更多成功的期望 C 

考虑到并非所有人都同样受到“人际期望效应”的影响， 
实验者就会努力采取来确定能够调节人们期望行为程度的人 
格变景。当搜集完文献以后，我们会发现有五个一般假设指引 
着研究，其中三个假设与实验者相关。这就说明，想要更多地 
影响別人的实验者、能够更好地解释非语言信息交流的实验者 
以及给他们的受试者留下更好印象的实验者能够产生较大的 
人际期望效应。在这五个假设中，其中两个假设与受试者有 
关。这表明，能够更好地甘心接受并理解非语言信息的受试者 
更易于按照实验者的期望行事。库珀和黑兹尔里格 （Cooper & 
Hazelfigg ,1988) 收集和总结了这五个假设的研究及实验。 

酒精对人类攻击性的影响 （Bushman & Cooper ，1990 ) 。长 
久以来，人们认为，在酒精的刺激下，人们的行为会更富攻击 
性。本研究综述的冃的在于总结出喝酒与个人的攻击性行为 
之间是否存在一种因果关系。为了达到这一研究目的，作者搜 
集了一些实验研究。在研究中，受试者被随机分配为“喝酒”或 
“不喝酒”两种情况，然后观察他们是否会产生“攻击行为”。 

在这个简单的范例中，研究文本包含了很多变化。最重要 
的是 ，一 些研究者感兴趣的是 ：“攻 击性行为”的产生是受喝酒 
产生的生理效应的影响，还是受社会期望的影响？在“不含酒 
精”的条件下，这些研究者操纵着受试者面临的状况。一些研 
究还包括这样一种“安慰剂”（实际上指“安慰词”，在这里两者 
的意思相同）的状况，没有喝酒的受试者被告知他们喝的软饮 
料含有酒精。另一些研究则不含“安慰闻”的状况，实际 h 喝了 
酒的受试者会被告知他们没有喝酒。这些人为的操作会帮助 
研究者比较不 N 的理论预测的准确性，这些理论主要预测了酒 
精对人们产生“攻右性行为”的影响程度。 

布什曼和库拍 （Bushman & Cooper ，1990) 的研究综述也分 
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析了影响“酒精与攻击性”之间关系大小的众多潜在 W 素。他 
们总结了酒精消费的类型和数量，受试者是否有其他的“非攻 
击性行为”以及实验者是否注意到了受试者的这种状况。 

对待强奸态度的个体差异 （ Anderson ， Cooper ， & Okamura ， 

1997)。“强奸”是一个严重的社会问题，每天有许多女性在未 
经她们同意的情况下被迫与男性发生性关系。本研究综述从 
人口统计学、认知、经验、情感及个性影响的角度分析了对待 
“强奸”行为的看法。从人口统计学的角度看，主要相关闵素包 
括：年龄、种族及社会经济地位。从经验的角度看，主要因素包 
括：以 前涉嫌过强奸、参与强奸及色情暴力的影响。从个件影 
响的角度看，主要因素包括•.对权力、统治和自尊的需求。作者 
们从综述中还发现了“分析男人和女人态度”的研究。 

这里总结对“强奸态度”研究的价值又是什么呢？安德森 
等 （Anderson et al . ，1997 ) 想要通过确认准会从“强奸干预措施 

中获益最大”来增强预防强奸的手段。综述也可能说明了跟强 
奸态度有关的因素，比如说某人对人际间暴力的接受程度，可 
能也会成为干预强奸的影响因素。 

练习 

阅读本书时，最好的练习方式是对你感兴趣的领域写一篇 
研究综述，综述应该试着运用下面章节中的指导方针。如果做 
不到的话，你可以试着完成各章最后布置的练习题。通常情况 
下，给你所在班级的成员分配不同的任务就会使这些练习变得 
更简单。 



第忿章间题形成阶段 


第2章描述了如何指导研究综述形成假设的过程。本葷讨论 
的主题包括：对于概念和操作的考量、“研究产生 （ study - genera - 
ted 〉”的证据与“综述产生 ( synthesis - generated ) n 的证据之间的区 
别、主效应及交互作用的处理、以往的综述对形成新综述所起的作 
用、从原始研究报告中搜集信息的编码单的发展以及在此阶段产 
生的效度威胁。 


M 2 M 问题形成阶段 \ 3 


首先，所有的实证研究必须要仔细考虑所要研究的问题。 
就其最基本的形式而言，研究的问题包括变量的定义和将变量 
联系在一起的理论依据，这种理论依据有可能是一种预测变量 
之间特殊联系的理论 （ 就像在证实性研究 [confirmatory re - 
search ] 中），也有吋能是来自 于一些 实际的、直觉的思考，从而 
能够提示人们已经发现的某一关系十分重要（就像在探索性研 

究 [exploratory research ] 中）。我们可以使用任何 一 种理论依据 

来做原始研究或研究综述。 

在原始研究阶段，如何选择所要研究的问题，主要受两个 
因素的影响 ：一是 研究者的兴趣，二是研究者周围的社会条件。 
这两种因素都会影响研究综述的主题选杼，它们之间也有较大 
差别。原始研究者的选择主要局限于他们可以想象到的主题， 
而研究综述者必须研究在文献中已经出现的主题。亨实上，在 
一个或多个学科内，除非人们已经对一个主题产生了浓厚的兴 
趣，并且该主题对从事的研究有较多启示，否则，这个主题就不 
适合于研究综述。 

实际上，综述仅跟一些问题有关，这些问题存在于以往的 
研究中，但与搜集原始数据相比，这并不意味着研究综述更缺 
乏创造性。其实，研究综述中的创造性会以不同的方式表现出 
来。为了帮助我们理解许多相关但不相同的研究，当研究者必 
须提出一个全面的方案时，这其中就蕴含着创造性。同时，这 
些累积的研究结果往往要比任一单项研究的结果复杂得多。 
为什么不同研究的研究结果各不相同，在解释这一问题的过程 
中综述者使用发现的变量解释此种情况的能力和提出概念解 
释髙阶关系 （ high-order relations ) 的能力，可以说是研究综述过 

程中最具创造性和挑战性的两个方面。 

社会科学研究中变量的定义 


康啪研堯和研堯综選之问的相似性 


任何社会科学研究中包含的变量都必须用两种方式来界 
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定。首先，必须给出变量的概念定义。这些用来描述变量特征 
的概念完全独立于时间和空间之外，可用于区分描述的事件是 
否与概念 相关。 例如，成绩的概念可以界定为“某人在学术领 
域的知识水平”，攻击性可以界定为“可能会伤害到他人的行 
为，、 

概念的定义在广度上有所不同，它们指的事件包括的范围 
也不同。因此，如果“成绩”被界定为“通过努力取得的东西”， 
这个定义就要比首次使用的概念的范围宽泛得多。第二个定 
义就会让人觉得“成绩”是指在社会、物理、政治或学术领域所 
要达到的目标。概念范围越宽泛，我们就可以说其越抽象。 

原始研究者和研究综述者必须选择一个概念定义，同时还 
要确定他们所要研究的问题变量的适用范围。他们还必须决 
定一个事件究竟如何代表了一个感兴趣的变量。 

为了把概念同具体事件联系起来，必须从操作层面界定一 
个变量的定义。为了确定这一概念是否出现在特定情况下，定 
义描述的必须是可观察到的事件。换句话说，“当详细说明产 
生概念的条件时”，就可以从操作层面来界定概念的定义 
( Elames , Kantowitz , & Roediger , 1995 , P . 50 ) 0 人际期望效应概 

念的操作定义可以概括 为：“ 实验者期望的某一具体行为（如 
“成功”）遇到实验者期望的相反行为（如“失败”）时，受试者在 
反应上的差别。”此外，原始研究者和研究综述者还必须详细说 
明涵盖在其概念定义里的操作。 

房始研走和研先餘逑之网的差弄性 

我们在这两种类型的研究中吋能也会发现变量界定上的 
一些差异。原始研究者别无选择，在研究开始前，他们必须从 
操作层面界定其概念。除非变量已经得到实证，否则，他们不 
能幵始数据收集。研究攻击性的原始研究者，在开始研究第一 
个主题之前，必须界定如何衡量攻击性。 

然而，综述者最初不必如此精确地界定概念。对他们而 
言，有一个概念定义和一些已知操作就可以展开文献检索。然 
后，随着综述者对研究越来越熟悉，概念的界定和相关操作就 
会变得越来越精确。当在文献中出现不同的操作时，综述者就 
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能够评估它们的概念相关性。例如，文献检索开始之后，对家 
庭作业研究感兴趣的综述者就可以确定课后辅导是否应该“包 
括”在概念定义里。 

当然，一些预先的操作规范也是必需的，综述者必须把这 
钱经验认识 （empirical realizations ) 铭记在心。然而，在文献检 

索过程中，综述者遇到他们不知道但同研究相关的操作是常有 
之事。总而言之，在数据收集开始之前，原始研究者通常已经 
明 f 可用于抽样的事件。随着研究的深入，综述者可能还会在 
研究中发现一些意料之外的因素。 

这两种研究之间的另一个区別 是：原 始研究仅仅包括一类 
(有时是两类）同样结构的操作定义。与之相反，研究综述通常 
会包括许多经验认识。在任何单一的研究中，虽然对待两名参 
与者的方式不完全等同，但与在个别研究中介绍的实验室、抽 
样人群、处理方式、测量方法和分析技巧上的差别相比，这种变 
化通常非常小 （Light & Pillemer ,1984) D 包含在研究综述中的 

多重操作介绍了一系列的独特问题，对这些问题，我们必须仔 
细研究。 


研究综述的多重操作 

概念和操作之间的“一致性 ”。 研究综述者必须清楚可能 
出现的两种潜在的不一致性，这些不一致性是由文献中操作的 
多样性引起的。豸先，为/能够发现较多操作，综述者可能会 
使用广泛的概念定义进行文献检索。然而，他们可能会发现以 
往相关研究中的操作范围非常狭窄。例如，对于强奸态度的研 
究综述，起初他们可能会对“强奸”概念下一个宽泛的定义，其 
中也包括女性强迫男性发生性关系的案例。但如果这样的话， 
综述者就会发现文献检索的结果会比较令人失望，因为过去多 
数的研究只涉及男性作为强奸犯的案例。当发生这种情况时， 
综述者就必须缩小概念的范围，尽可能地做到同现有的操作相 
一致。否则，跟必要的数据相比，得到的结果会过于笼统。 

综述者也会遇到相反的问题，即用多重广义方法界定的狭 
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义概念。对攻击性和酒精研究的综述来说，如果最初测量的只 
是对身体的攻击性，这个问题就会出现。但是，文献检索显示 
r 许多种其他类型的攻击性行为，如言语侮辱，就被作为因变 
量使用。这时，综述者将面临着一项抉择，要么扩大概念的范 
围，要么排除许多研究。 

随着文献检索的继续，综述者需要®新评佔他们使用概念 
的广度或抽象性与原始研究者界定这些概念使用的操作变化 
之间的一致性，这一点是至关重要的。在原始研究中，我们不 
赞成重新界定所研究的问题。在研究综述中，我们要注意研究 
的灵活性，这对研究大有裨益。 


多重操作主义 （multiple operationism ) 与概念到操作 （ con - 
cept - to-operation ) 之间的对应性。 韦布、坎贝尔、施瓦兹、西克 
里斯特和格罗夫 ( Webb , Campbell , Schwartz , and Grove ,1981 ) 

强有力地论证了多重操作主义的价值。他们将多重操作主义 
界定为应用两种或两种以上的方法对同一对象进行的分析, 
“但是在非相关的部分存在不同的形式” （ P. 35 ) 。 多重操作主 
义的运用产生了积极后果，闵 为： 

一 旦经两个或两个以上的独立测量过程确认了一种 
论点，不确定性的解释就会大大减少…… . 如果一种论点 
可以经受住一系列不完善的测量及所有不相关错误带来 
的挑战，那么我们就应该相信它。当然，随着产生这些差 
异和分歧影响的错误观念来源的减少，我们对这种观点的 
信任度会逐渐增加。 （ p .35) 

虽然韦布和他的同事们认为多重操作的存在可能会增强 
推论的可能性，但必须要强调他们要求的限定性条件。至少在 
最低限度内，如果在研究综述中包含的所有或大多数的测量是 
有效的，多重操作就能够提高槪念到操作之间的对应件。这一 
“推论”和应用在古典测量理论中的“推论”很相似。如果有足 
够多的最小有效项目，就可以将各个项 H 的测试或调查问卷与 
一个“真”分数之间的小的关系系数增加到一个可靠的指标 
内。然而，如果大多数项目（在这种情况下，操作）没有对应的 
基本概念或项目（操作），幷•且更大程度上涉及的是不同的概 
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念而不是预计的概念，检验（在这种情况下，综述的结论）将是 
无效的。如果不考虑包括多少项目（或操作），检验就是真 
实的。 

研究综述者必须仔细分析会威胁到操作与概念之间对应 
性的研究设计。在文献检索中，如果研究设计包含了相同的无 
效程序，操作和概念之间的对应性就会受到威胁 n 这里，家庭 
作业和成绩的研究综述给我们提供了一个很好的例子。所有 
的家庭作业研究自然是在教室里面进行的。在有家庭作业或 
无家庭作业的情况下，这些研究通常只包括小量样本的班 
级——仅仅是一或两个班级。另外，许多研究以论文或学位论 
文的形式进行，在这些研究中，老师会把他们的学生视为参与 
者。因此，他们会有意或无意地以不同的方式来对待班级里的 
学生，而不是以是否布置家庭作业来对待。如果经文献检索发 
现所有的研究都是在老师指导做家庭作业的情况下进行的，就 
不能排除“除了家庭作业之外，对待学生的不同方式也可以说 

鼈 

明成绩差异的原因”这一反驳假设 （rival hypothesis )。 幸运地 
是，在不同的老师随机给学生布置 或+布 置家庭作业或者是对 
相同的班级进行操作的情况 T * ,研究也同样可以进行。 

酒精对攻击性影响的研究提供了类似的例子。在一些研 
究中，实验者并不知道受试者喝的饮料中是否含有酒精 及洒精 
的类型，而在其他一些研究中，实验者知道这两种操作下受试 
者的实验状况。在知道受试者喝酒的情况下，综述者会发现酒 
精的影响会更大一些。因此，如果所有的研究都是在实验者知 
道的情况下进行的，他们就会商估濟精的作用，这样就会混淆 
酒精效应同实验者的期望效应。换句话说，这种“酒精影响下” 
的操作方式包括了其他系统的但非相关的操作。在这种情况 
下，实验者在处理方式 t 的差别主要是建立在对受试者期槊行 
为的基础上。 

总之，如果综述者可以排除不相关的影响来源，那么在研 
究综述中，通过多样化的操作方式就可以表明较强推论的潜在 
好处。如果所冇或大多数的操作与概念之间缺少最低限度的 
对应性，或者说，如果研究设计都有着相类似的困惑，并且这些 
困惑有的在预料之中、有的在预料之外，多重操作就不能确保 



.一 

18 一^1 方 如何做综述性研究 

概念与操作之间的对应性。 

用新概念代替旧概念。 在社会科学领域，用一个新概念来 
解释原有的旧概念是最具有挑战性的事情。例如，在1959年， 
费斯汀格和卡尔史密斯进行了一项典型的社会心理学实验，他 
们用“认知失调”这一概念来解释下面的案例。他们让受试者 
从事一系列枯燥无味的工作，接着诱使受试者撒谎告诉别人工 
作很有趣，他们付给受试者的报酬为1美元或25美元，然后洵 
问受试者是否喜欢这一工作。结果拿1美元报酬的受试者比 
拿25美元报酬的受试者更积极地评价了这项工作。对这种用 
传统的学习理论解释不了的现象，认知失调理论的解释是，钱 
的数量不足以决定受试者的态度，仅拿1美元报酬的受试者的 
“失调程度”要高于拿25美元报酬的受试者。可见，只有态度 
发生转变，才能减少人们的不满意程度。接着，在1967年 ，贝 
姆做的实验提岀了“自我知觉理论”。这种理论主要解释了人 
们的行为是否会影响人们的态度，即当问一个人对待某件事物 
的态度时，人们首先会回忆他们与这种事物有关的行为，然后 
根据过去的行为推断出对该事物的态度。简单地说，贝姆推 
测，若是参与者支持与自己态度相反的观点，他们就会采取同 
样的方式，以一位观察者的身份来推断他们的观点，也就 是说: 
参与者对“1美元”引发的争论，是假设因为他们没有理由必须 
对问题持有积极的态度。 

不管有多少与“1美元”、“25美元”相同的实验，研究综述 
者都不能用实验结果来评估这两种理论的正确性。研究综述 
者必须注意区分不同的概念和理论 ，因为 它们预测的同一组操 
作的结果相同或不同。如果预测是不同的，可以使用累积的证 
据评估这一理论或其他理论的正确性，也可以评估在不同情况 
下每一种理论的正确性。如果理论作出了相同的预测，那么， 
没有建立在比较判断研究结果基础上所做的预测也是可能的。 


使用与概念相关的非初始操作。 通常，文献检索发现的研 
究已经被圈迸一种概念框架内，这种研究不同于综述者的研 
究，但包括了综述者想到的号概念相关的测量和操作。例如, 
有一些概念与出现在研究文献中的人际期 M 效应的概念相似 
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(如，行为确认）。当确定和不同的抽象结构有关的相关操作 
时，这些操作当然最应该被考虑纳入到综述中。事实上，相似 
操作背后的不同概念和理论经常被用来展示结论的稳固性。 
与具有不同理论背景的研究者做的相关实验相比，可能还没有 
更好的方法来确保操作中包含有不同形式的非相关组成部分。 

多重操作对综述结果的影响。 多重操作不仅为概念变量 

介绍了更为清楚的推论。同时，在不同综述结论里，它们也是 
旨在解决同一主题的最重要的差异来源。多重操作对综述结 
果的影响主要体现在以下两个方面 •. 

1. 操作定义里的 差异： 关于同一主题的两个研究综述使用 
的操作定义彼此之间是不相同的。正如之前提到的，两 
位使用相同抽象概念的综述者可以使用完全不同的操 
作定义。每个定义可能包含有一些被其他排除的或者 
可能完全包含其他的操作。 

2 . 操作细节里的差异 ：在 文献中，由于综述者关注方法论 
特征的变化，所以多 m 操作同样也会影响研究结果。检 
索完文献之后，这种影响会引起综述者对待研究操作方 
式的不同。这时候，研究综述者就会变成“侦探”来查找 
“在不同条件下，为什么两个不同的变量是相关的独特 
线索 ” （Cook el al , 1922, P .22)。 为了解释在什么情况 

下，两个变量的关系为正相关、负相关或不相关，他们会 
使用观测数据模式作为线索进行说明。 


综述者做的“侦探 工作董 ”是不同的，一些综述者非常注 
意研究操作。他们决定认真査明检索研究中的操作和样本之 
间的区别。其他的综述者认为对方法或参与者的依赖关系是 
不太可能的，可以简单地关注。 

综述素例 

在下面四个研究综述案例中，有两个案例能更好地解释概 
念与操作之间定义的广度和一致性之间的差异。对人际期望 
效应屮的人格调和进行搜索之后发现，有32个不同的等级测 
暈了实验者的人格，有27个等级测量了受试者的人格。有8 
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个不同的等级测量了实验者所需的社会影响力，有9个等级测 
量了实验者的表现，有 11 个等级测最了实验者的亲切性 （ Hk - 
abilky )( 其中叫个测量结构与假设无关）。有 11 个等级测量了 
受试者的易受影响性。显然，多東操作已经运用到了这些领 
域。因为使用了多重操作，我们可以相当肯定，与任何单一级 
别相混淆的任一其他人格变量对这四个假设的结果影响不大。 
尽管多元暈表可能涵盖了宽泛的假设，但是基本上所有的测量 
都属于纸笔 （paper and pencil ) 的类别。因此，我们必须考虑一 * 
种可能性，即与纸笔测试（如，对社会期望的回答和评价顾忌） 
相关的困惑，可能会对综述结论中的人格变量产生影响。 

测量人际期望效应时，可以使用四个不 同的操 作运算。最 
简单的操作使用原始分数等级，并将不同的期望条件（如，某个 
人的像片照的成功或失败）连同人格维度一起输入，然后进行 
方差分析。另一个方法就是通过观察期望等级和获得等级之 
间的差异来界定期望效应。这些测量不仅在计算方式上不同， 
而且在界定某一期望效应时，他们是否是通过获得的等级，或 
者通过获得的等级是否反映了期望的准确性——这是看待这 
一现象的两种不同方式。 

然而，“人格”是个很宽泛的概念，包含了很多维度和测量， 
“对待强奸的态度”则是一个十分狹窄的概念。一旦强奸这个 
词被界定为“未经女方同意发生的男女之间的性交”。通过文 
献检索，发现了 17个对强奸态度的不同测量，但只有5个使用 
的频率比较高。在如何界定强奸态度时，这些测量又有所不 
同。其中两个集中说明了对强奸问题的一般看法，一个说明了 
对强暴迷思的可接受程度。另一个表达了对强奸行为的谴责， 
剩下一个表达了对强奸犯和强奸受害者一定程度上的 同情。 

界定“预测强奸态度”可以使用“个体差异”这一概念，但 
是，它的内涵非常广泛。它里面确定了 74个独特的个休差异 
变量，这些变量包括了一些由人口统计学、认知、经验、情感和 
人格测量这些内容聚集成的宽泛群组。在做研究综述时，许多 
创新挑战都来源于如何确定分组（如上述分组），并且还要搞 
清它们之间的不同关系。 
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判断研究的概念相关性 

迄今为止，还有一个基本问题没有回答，即如何判断研究 
是概念相关的？综述者用来区别相关研究和非相关研究的规 
则，决定了概念和操作之间的一致程度。 

信息科学家已经分析了是什么因素促使了一项研究同研 
究的问题相关。遗憾的是，文献检索者没有分析其使用的概念 
抽象程度对相关性判断的影响。然而，事实已经证明，文献检 
索的相关性研究判断同此领域中开放的思想和专业知识相关 
( Davidson , 1977) ，也与结论是否建立在标题或摘要的基础上 
相关 （Cooper & Robbie ， 1989 )，甚至跟检索者做出相关决定所 
需的时间相关 （Cuadra & Katter ，1967 ) 。因此，对于一个问题， 
虽然综述者选择的概念定义和抽象水平被视为是对相关研究 
的两种影响因素，但是其他诸多因素也会影响信息的筛选。 

关于 概念的相关性，对综述者的一般建议就 是：他 们必须 
牢记要用最广义的概念定义进行文献检索。如果决定将“概念 
的可接受性”包括在广泛的概念里，那么综述者就要尽可能地 
保持思想幵明。在 K 一个阶段，特別是在数据评估阶段，综述 
者有可能因为缺乏使用概念的相关性而排除一些特殊操作。 
然而，在问题形成和搜索阶段，综述者应该尽可能搜集到有关 
问题各方面的信息，有些信息虽然没有太大作用，但也必不可 
少，比如原始研究者搜集的、以后可能在分析中不会应用的一 
些数据。研究完成后，如果综述者发现在检索中省略 r 尚有疑 
问的问题，而他们已经检索了研究并对其进行了分类，但必须 
又要进行新的检索，这就是件很让人烦恼的事。 

综述者在做广泛的概念搜索时，需要更多地注意操作细 
节。在随后的章节中，我也多次强凋了广泛的概念定义搜索给 
我们的研究带来的帮助。 

综迷者例 

家庭作业效用的综述面临着一些问题，这些问题涉及综述 
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里是否应该包括某些种类的操作。为了帮助客户们克服恐惧 
症，行为治疗师经常给他们布置“家庭作业”或练习。广泛的概 
念定义可能也包括这种类型的“家庭作业”。这和学校里学生 
的家庭作业很相像，一些学生会接受课外辅导，其他学生可能 
会在家里跟随电视或录像学习。用来界定家庭作业概念的方 
法可能包括上述所有的这些活动。最终，排除以上类型的“家 
庭作业”，我们把“家庭作业”界定为“学校老师给学生布置的 
要在课后完成的任务”。 

酒精和强奸态度的综述在案例屮较少岀现，很难区分这些 
研究是相关还是不相关的。在酒精对攻击性影响的研究中，对 
酒精含量的操控作用是非常明显的，这点就像研究者是否测试 
参与者对强奸的态度一样明显。然而，是什么构成 r 攻击性行 
为或者如何界定个体差异，是一个比较大的问题。同时，如何 
限定一些定义的范围 （ 如言语嘲弄是否是攻击性行为？对待约 
会的态度是一个稳定的个体差异么？），不同的社会科学家的想 
法也不一致。 

研究综述中不同概念之间的关系 

W 

大多数研究综述最初只包括两个变量之间的关系问题。 
对此的一个简单解释 为：与 任何给定的涉及三个变量的交互作 
用相比，对二变量关系的检验通常更加频繁。在四个综述案例 
中，我选择了两个案例进行说明，一个是家庭作业与成绩研究 
的综述，另一个是酒精与攻击性研究的综述，它们都是将二变 
量的关系作为最初的关注点。对待强奸态度和个体差异的综 
述，将单个概念变量和许多其他的概念变量联系在一起，但每 
次只分析一个变量。然而，所有的这些综述均分析了对二变量 
关系的潜在影响因素。人际期望效应中人格调和的综述最初 
分析 的是三 个变量之间的关系。二变量关系主要包括了人际 
期望对行为的影响，同时也包括期望者的人格和目标是如何影 
响这种联系的。 

在社会科学领域，虽然一些具体的交互假设已经对需要独 
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立的研究综述产生了足够兴趣，但是对于绝大多数的研究主题 
而言，最初的问题形成涉及两个 变量的 问题。此外，最初建立 
在二变量关系基础上的综述，决不会消弱对发现的交互影响或 
缓和影响的重视程度。的确，如果经常发现存在二变量关系， 
这一贡献会被研究团体视为是微不足道的。如果发现二变量 
关系可以由第三个变量调节，那么就可以认为研究者对这些研 
究结果的理解又向前迈进了一步，并 R 获得的研究结果也会被 
优先推论。即使当交互作用是一篇综述的首要关注点时，对高 
阶交互作用的搜索也应当继续。人格调和的综述分析了交互 
效应在不同的情况 F 是否可能会或多或少的出现。第5章会 
更多地说明变量之间的关系，并讨论如何解释研究综述中的主 
效应和交互作用。 

研究产生的证据与综述产生的证据 

在研究综述中，包含了两种不同来源的关系的证据。第一 
种被称 为研究产生的 证据。当一项单独研究包含了直接检验 
我们正在考虑的关系的研究结果时，就会出现研究产生的证 
据。研究综述也包括这样一种证据，它不是来源于个别研究， 
而是来源于在程序上有所变化的研究。这种类型的证据，称为 
综述 产生的证据。 当使用不同的程序来检验相同假设的研究 
结果彼此之间进行比较时，就会出现综述产生的证据。 

任何关系，不论是因果关系或者是简单关系，都吋以通过 
研究或综述产生的证据来分析。然而，研究产生的证据不仅建 
立在实验研究的基础上，而 II 综述者还可以通过它对涉及的因 
果关系进行解释说明。下面的一个案例将说明这一点。关于 
酒精与攻击性的研究，假定我们对蒸馏的酒精饮料（如，伏特加 
酒）和酿造的酒精饮料（如，啤酒）是否会产生不同作用的攻击 
性的研究感兴趣。假定发现参与者被随机分配为喝酒或不喝 
酒实验条件下的研究有16个。并且这些研究的累积结果可以 
解释支持或反对“酒精引起攻击行为”这一观点。现在假定我 
们发现了 8个研究，这些研究只比较了蒸馏酒与无酒精控制 
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组，其他8个研究只比较了酿造酒与无酒精控制组。如果此综 
述产生的证据说明，同饮用酿造的酒精饮料相比，参与者饮用 
蒸馏的酒精饮料后更容易产生攻击性行为，那么我们就可以以 
此推断酒精的类型与攻击性行为之间的联系，但推断的这种关 
系并不是因果关系。 

为什么是这种情况呢？因果关系的方向并不是综述产生的 
证据的问题。如果用参与者表现出来的攻击性行为来说明实验 
者选择的酒精饮料的类别，那么对此问题进行争论是非常愚蠢 
的。然而，另一种成分的因果关系仍旧是个问题，即缺少造成联 
系或非虚假关系的潜在的第三变量。众多的第三变量可能没分 
清实验者最初对酒精饮料的选择。例如，为了评定饮用蒸馏酒 
精饮料的实验者血液中的酒精含量是否比饮用酿造酒精饮料的 
实验者高，前者使用 r 更加敏感的衡量攻击性的措施。 

综述产生的证据不能合理排除可能会作为真止原因使用的 
其他变量，这些变量是同感兴趣的研究特征交织在一起的。因 
为综述者不是随机地给实验分配洒精类型，所以就+可能减少 
实验中的虚假性。在实验条件下，如果原始研究者可以随机地 
分配使用参与者，他们就可以假定对第三变量的描述是均等的。 


使用综述产生的证据研究描述性统计或二变量的关系。 

在说明如何使用综述产生的证据分析第三变量对二变量关系 
的强度和方向产生的影响时，可以采用蒸馏的酒精饮料和酿造 
的酒精饮料的案例。在这个例子中，大多数综述产生的 i 正据 
析了某些类型的交互假设。 

综合整个研究的描述性证据也是可能的，或者像罗森塔尔 
(Rosenthal ,1991) 称之谓的“综合分析”。例如，家庭作业的综述 

可能已经问到下面的问题，“学生报告的、平均做的家庭作业有 
多少?”这一问题将会促使我从每个研究中搜集学牛做家庭作业 
花费的平均时间，然后，就可以计算出这些平均时间的平均值。 

我已经使用了这种描述性证据来观察二变量的关系。例 
如，当比较作为抽样人群使用的小学生和中学生的研究时，我 
可能已经分析过他们做的家庭作业的平均量是否不同。 

使用这种类型的综述产生的证据，去综合描述性统计或检 
验二变量之间的关系，往往比较困难。这是因为社会科学家经 
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常会使用不同的标准来测量他们的变量。假设我想将整个研 
究中有关成绩的描述水平综合在一起，如果我发现了一呰通过 
教师自编测验及其他的一些标准化测验来测量成绩的研究，并 
且在这些标准化测验中，如果有些报告的是原始分数，其他报 
告的是相当 T 年级水平的成绩，那么综合有关成绩的描述水平 
将非常困难。更不用说花在家庭作业时间上的那个例子。在 
整个研究中，测量时间的指标砬该一致或者可以轻易转换（比 
如，从小时转换为分钟）。 

当检验作为第三变量的研究特征时，因为研究中二变量的 
关系可以转化为标准化的效应量估计，这样的话，就可以控制 
不同的等级，非标准测量的问题就会减少（见第5章）。然而， 
在整个研究中分析第三变量时，仍存在不能以同一标准衡量的 
问题。 

对综述者而言，要注意研究产生的证据和综述产生的证据 
之间的区别，这一点是非常重要的。在某一单独研究里，来自 
于实验操作中产生的唯一证据才能支持有关因果关系的主张。 
有时候，’综述产生的证据的因果推论强度较小，但这并不意味 
着我们可以忽视它。使用综述产生的证据可以检验原始研究 
者从未检验过的关系。例如，以前的原始研究没有研究过家庭 
作业和成绩之间的关系是否会随着年级级别的不同而不同，或 
者饮用不同的酒精饮料是否会产生不同的攻击行为。在研究 
过程中，通过检索到的不 同的年 级级别或酒精饮料类型的研 
究，综述者就可以制造出吋能作为重要凋节变量使用的第一手 
证据。即使这一证据有时会让人感觉模棱两可，但它却能给研 
究综述带来较大好处，也可能是将来原始研究中的假设来源。 

以往综述的作用 

如果一个主题有着悠久的研究历史，综述者就会发现以前 
的研究者尝试做的综述 T 作。很明显，在做一个新综述之前， 
综述者要仔细查阅前人的努力成果。以往的综述可以帮助研 
究者展开新的综述研究。这个评估过程和一项新研究进行之 



26 ^ 如何做综述性研究 

前在原始研究中使用的评估过程很相似。 

新综述者可以在以往的综述中找到很多有价值的东两。 
首先，通过分析以往的综述，他们可以知道该领域中其他学者 
的观点、立场。特别是，他们还可以发现以往的综述中存在的 
相互冲突的研究结论，并且如果确实存在这些冲突性结论，那 
么是什么原因引起的呢？ 

其次，他们可以通过以往的综述分析评估较早研究的完整 
性和有效性。例如，库珀和多尔 （Cooper and Dorr ,1995) 把种 

族差异的统计研究分析与关于同样主题的非定最分析进行对 
比 （Graham ,1994)。通过使用相同的研究，库珀和多尔说明了 

在非定量分析的结论中遗漏了一些重要关系，并旦在不 N 研究 
领域使用的“显著性”标准也不同。 

在确定新综述者希 M 分析的交互 变童时 ，以往的综述是一 
个很重要的帮手。除了重新开始汇总和幣理潜在的调节变量， 
以往的综述者通过阅读研究文献并依据自己的聪明才智，无疑 
会为新综述者提供许多建议。如果该领域做的综述不止一个， 
那么新综述者就需要通过自己的努力来汇总所有提出的建议。 

最后，通过参考以往的综述，综述者就可以开始编纂与新 
综述相关的参考书目。大多数综述包含的参考书目相当长。 
如果综述里包含的参考书0不止一个，虽然引用的文献有明显 
的区别，但这些引用在一定程度上会有重复之处。与第3章描 
述的其他文献检索方法一样，以往综述中引用的研究可以为新 
综述展开文献检索提供一个很好的场所。 

综达素例 

在这四个综述案例中，家庭作业和成绩的综述最能说明以 
往综述的作用。我们会发现九个汇总了以前文献的研究，这些 
研究主要说明了家庭作业是否会影响学生的学习成绩。首先， 
我向大家说明了，这九个有关家庭作业效用的、比较陈旧的综 
述的总体结论有什么显著不同。其次，不同的综述分析了作为 
家庭作业效用调节量的不同变量组。接着，当分析相同的调节 
量时，以往的综述者有时会得到与他们的研究相反的结论。再 
次，我们发现以前的研究并不都是非常全面的，在检索所有相 
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关的文献时，没有一个单独研究检索的涉及面能超过全部研究 
总文献的60%。因此，我们可以利用新综述解决以往综述之间 
存在的争议、分析所主张的家庭作业效用的调节量，从而能够 
为今后的研究打下更为全面和牢固的基础。但这并不是表明 
以往的综述没有什么作用，在帮助制定一个描述家庭作业发展 
过程的概念框架时，它们起到了很好的作用。当对家庭作业的 
效用进行评估，并提出了可能会影响家庭作业效用研究的综合 
B 录的背景因素时，以往的综述列出了需要解决的问题。 

研究综述编码单 

一旦综述者提出了一个问题，同时也知道一些理论家、原 
始研究者和以往综述者对问题的研究思路，接下来要做的就是 
编制编码单。综述者可以使用编码单收集从原始研究报告中 
获取的信息。 

在进行文献检索之前，如果综述里包含的研究数量很少， 
至于从报告中提取哪些信息，综述者没有必要开始就对其进行 
准确和完整的构想。综述者可以检索、阅读甚至反复阅读一些 
相关的报告，直到他们确切知道自己对哪个方面的研究感兴趣 
并乐意对其进行编码为止。综述者可以通过少量研究，把出现 
在自己阅读后的研究中的观点探究到底，他们也可以简单浏览 
以前所做的研究来寻找新的信息。 

如果综述者希望发现大量研究，而重新阅读这些报告会因 
花费大量时间让人望而却步。那么在这种情况 F ， 综述者在正 
式搜索开始之前，有必要仔细考虑从每个研究报告中会检索到 
什么样的数据。在研究正式开始之前，综述者对自己的某些研 
究想法进行小范围的试验是很 m 要的，这有利于以后研究展幵 
和编码单修改。在全面检查每个研究报告后，通过上述举措， 
我们还可以得到一个更确切的研究标准，这样就能更好地指导 
单独阅读研究报告。编制编码单的规则同原始研究中编制编 
码框和数据矩阵的规则很相似 （Bourque & Clark , 1992 ； Fowler , 
1993) 0 
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编制综述编码单的萏要规 则是： 检索研究中所有可能相关 
的信息。一旦开始文献检索，综述者想要从已经编码的研究中 
检索新的信息是极其困难的，更不用说那些不会使用的研究信 
息了。 

编码单上包含的信息。 每一位综述者都想把一些原始研 
究信息包含在研究综述的编码单上。司多克 （ Stock ，1994) 将 
这些信息分成7类，分别是 :鉴 定报告、研究设置、研究主题、研 
究方法、对待方式、统计结果或效应量和编码过程。下面分别 
对这些分类进行 说明： 

1. 鉴定报告 （report identification ) :首先 ，综述者希望检索 

到与研究报告相关的背景特征方面的信息，主要包括报 
告的作者、来源、发表时间和发现报告的信息渠道。 

2. 研究设置 （setting of the study ) :通 常包括从事研究的地 

理位置（如国家或国家的某一地 区； 城市、郊区或农村）， 
也包括了不同的体制环境（如分别在大学和监狱里对强 
奸态度进行的研究），甚至是更细微的研究机构（如公立 
学校和私立学校）。 

3. 研究主题 （ subjects ) :综述中需要的其他领域的信息，包 
括了包含在原始研究中的参与者特征的信息。检索每 
一种条件下研究的参与者的数最无疑是十分重要的。 
综述者既希望检索到原始研究者对研究参与者设置的 
有关限制方面的信息，又希望检索到参与者的年龄 
信息。 

4. 研究方法 （ methodology ) :综 述者希望检索到原始研究中 
有关研究设计的信息。具体的研究兴趣特征会随着主 
题的变换而变换。通过库克和坎贝尔 （Cook and Camp - 
bell , 1979) 的研究，我们可以发现对研究设计较全面的 
讨论及解释。大多数研究设计可分为5种类 型：一 组前 
测、后测 设计； 相关性 研究； 非对等控制组或静态组比较 
( 如在研究开始前，存在的群组处理方 式）； 非对等控制 
组的匹配或统计控制比较 （ 如使用的增强完整群组对等 
性的方法）。 
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在某些案例中，这样的分类是足够的。但是在其他 
一些案 例中，需要在前面介绍的设计中增加不同的设计 
(如时间序列）或做一更加精细的区分（比如不同的匹 
配或统计控制程序的区别）。 

其他研究设计的特征可能也是相关的，是否使用重 
复测量、平衡调整，或者是否存在对实验者偏见的控制 
也包括在内。 

5. 对待方式 （treatment characteristics ) :综述者需要仔细描 

述操作或独立变量测景的细节问题。对待方式的本质 
是什么？随着研究的不断变换，它的强度和持续时间是 
不是也会发生变化？会不会采取操作检査？如果检查 
的话，说明了什么？ 

如何对待操作组和比较组也同样重要。有没有可替 
换的方式？如果有的话，这种方式是什么？如果没有的 
话，控制组会怎么做或它们是如何获得的？研究中的这 
些不同变量是造成研究结果不同的主要原因。 

对于包括人格和其他多项量表的研究，如果检索到 
的信息是有效的，综述者则希望能够检索到测试名称方 
面的信息，包括它们是否是标准化的、包含的项 F 1 数量 
和测试的信度。在实验研究里使用的相似的 W 变量的 
信息也需要仔细分类。 

虽然经常用实验因变量来解释个别问题或不连续的 
行为，但是在一些重要方面，它们也会随着研究的不同 
而不同。例如，在测量实验因变量之前，它们的反应性、 
灵敏性及延迟值也有所不同。 

6. 统计结果或效应量 （statistical outcomes or effect size ) :研 

究综述的编码单必须包括研究结果方面的信息。至关重 
要的是，编码单需要确定比较结果的趋向。是支持还是 
反驳这一假设呢？同假设检验相关的显著性水平如 
何呢？ ， 

如果预想了定最分析或者是元分析的结果，综述者 
需要记录更多研究统计结果的准确信息。因为不同文 
章报告的结果不同，采取的形式也不同，所以，根据研究 
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的统计结果在定量分析中是否适用，我们列出它们也是 
可能的。从最理想到最不理想的研究统计结果分 别是: 
( a ) 平均数、标准差、比较中每个群组或假设检验的样本 
量； （ b ) 估计处理方式的影响或者是变量之间的关系 
( 如相关系数 h ( c ) 推论检验统计量的精确值（如 < 检验 
或/ " 检验）及相关的自 由度； （ d ) 不精确的/>值和样 
本量。 

不管选择什么样的比较，综述者都可以通过平均数 
和标准差精确计算出效应最。虽然原始研究者计算出 
的效应量是一个极好的信息来源，但有可能会包含一些 
未知的错误，也有可能没有提及具体的感兴趣的比较， 
还有可能不是以综述者选择的度量标准进行计算的。 
综述者可以通过推论检验统计量值和自由度来评估效 
应量。综述者还可以通过不精确的/>值和样本 M 对推 
论检验值作出估计。有时，在对推论检验值和 p 值的分 
析中包含了多重因素（如不止一个自变量的方差分析）。 
除非这些因素在整个研究中是相同的，否则，研究中的 
不精确估计将会增多。在研究报告中，诸多在统计信息 
中提取的问题将会在下面的章节中进一步讨论。 

7. 编码过程 （coding process ) :这部分信息指的是编码的研 

究。综述者可能会对研究的编码者是谁、如何相信编码 
者的编码及完成编码需要多长时间这样的问题感兴趣。 
接着，综述者还将分析编码结论的可靠程度。对研究进 
行编码时，编码过程中的信息可以帮助我们了解哪些编 
码者遇到了闲难，针对的是哪些变量，为什么会遇到这 
些困难？ 

最后，每个研究报告还包含了综述者想在编码单上说明的 
各种各样的重要信息。在很多情况下，为了与感兴趣的主要比 
较的信息相适应，我们要将编码单标准化。但是，研究报告中 
还包括一些证据，这些证据涉及主效应和其他变量之间的交互 
作用。因此，编码单上应该留有一定的空间，用来说明设汁或 
分析中变量的数量及包含在感兴趣关系中的交互作用的检验 
结果 o 给描述性说明留有一定的空间是很重要的，编码者可以 
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通过这些说明来报告每个研究的独特方面。 

低推论编码和高推论编码。 前面所列的类别可能被认为 
是低推论编码。就是说，他们只是要求编码者指出研究报告屮 
需要的信息并将其转到编码 笮上。 在某些情况下，可能要求编 
码者对研究做一些推论性判断。这些高推论编码要求编码者 
尝试着推理出个人是如何解释某一处理方式或实验操作的。 

卡尔逊和米勒 （Carlson and Miller ，1987 ) 做的综述给我们 

提供了一个很好的例子。他们总结了一些文献，主要说明了为 
什么消极情绪状态下似乎会增强人们伸出援助之手的可能性。 
为了检验对这一研究的不同解释，他们需要估计伤心、内疚、愤 
怒或沮丧等不同的实验程序对试验对象有何影响。这就要求 
编码者阅读摘录的方法部分的有关条款，然后使用1〜9这九 
个数字来划分等级，例如，“在何种程度上，研究对象会因消极 
情绪的诱导而感到特别失落、伤心或压抑。” （ P . 96) 

这些卨推论编码会给研究综述者制造一组特殊的问题。 
首先，要特别注意高推论编码判断的信度。同时，还要求编码 
者发挥研究课题的作用，而发挥作用的方法的效度又是许多争 
议的根源 （Greenberg & Folger ， 1988 ) 。米勒、李和卡尔逊 （ Mill - 

er , Lee , & Carlson ，1991 ) 经过实证研究证 明了： 卨推论编码可 
以导致有效判断，也使综述者研究文献和解决争议的能力得到 
进一步提高。如果综述者认为可以从文章中有效地提取高推 
论信息，同时解释他们这样做的理论依据可以使人信服，这种 
做法就值得一试。 


修订和试验性测试编码单。 当研究领域庞大而且复杂时， 
编制编码单是件很艰巨的任务。在设计分类的过程中，哪些问 
题是这一领域研究的重点，综述者对此要做出关键判断。通 
常，综述者会发现自己对某一主题及其研究的想法只有一个模 
糊的印象。编制编码单可以迫使他们进行更加周密的思考。 

编码单的第一稿并不是 最后的 定稿。为了方便进行输入， 
综述者需要向知识渊博的同事们展示初稿。然后，使用编码单 
就可以对一些随机选择的研究进行编码。同时，研究的类别也 
会增加，分类描述将得到更精确地界定。最后，不同的编码奔 
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要对编码中.进行试验性测试，这样可以进一步发现一些含糊不 
清的地方。 

综述者不应该把这一过程看作是件麻烦的事。这一过程 
是阐明问题形成的内在组成部分。编码单的发展跟综述的成 
功是息息相关的，它的重要性不亚于调查表对调查研究的重要 
程度，或者说不亚于观测方案对肖然行为研究的重要程度。 

最后，一般的编码单不会涵盖所有研究的独特方面。完成 
的编码单上经常充满了空白处和页边注释 3 编制完美的编码笮 
是永远达不到的。为了强调主题领域里研究的多样性，综述者 
可以把这些事件视为失败（但并不是失败）或视为一种机会 
目标。 

綍連素例 

表 2.1 描述了一份“可能的编码单”，上面比较了做家庭作 
业和不做家庭作、 Ik 学生的研究综述。我将其称为“一份可能的 
编码单”，是因为即使是相同的综述，也会存在多种方式去安排 
这些变量和编码。实际上，表 2.1 虽然展示了安排编码时会遇 
到的大部分问题，但它可能不是最佳的编码单。随着研究中变 
化的增多，编码的复杂度也会增强。如何解决和处理更多复杂 
的问题和案例，综述者可以参见司多克 （ Stock ，1994) 的著作。 

表 2.1 左边一栏记录的信息都会输人计算机里进行记录。 
一些信息（如期刊卷数和页码）可能会记录在编码单上而不会 
输人计算机。空白行 F 面的数字表示了计算机栏的数量和位 
置，它们已预留给数据矩阵每一行中的变量。下面括号中描述 
的是每个变量的名称，它会显示在计算机文件里。例如，表 2. 1 
表明数据矩阵的第一行前三栏指定 f 一个特定的三位数来确 
定研究报告（在计算机中被称为 RID )。 通过留出的三个栏，我 
就可以区分1 _个不同的研究报告 （ 它们的 RID 是从000到 
999)。留出的第四栏是用来确定每一个单独的研究（研究 ID 
号码），这些研究可能会在相同的报告中进行报告。在大多数 
情况下，这种记录的条目是“1”，但是如果两个研究报告在一 
个报告中，在第四栏，第一个研究的条 S 就是“1”，第二个研究 
的条目就是 “2”。 
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列号. 

123 

4 

5 

67 

890123 

4567 

89 

0 


2 

3 


表 2. 1家庭作业与没有家庭作业研究的编码单 


鉴定报告 
报告 ID : 

( KID ) — _=•位数编码 

研究 1 D : 

( SID ) —位数编码 

样本 ID : 

( SAID ) _—位数编码 

比较⑴： 

( CID ) 两位数编砰 

第一作者__ _前六个字母 

( FA ) 

题目 一 



( JO ) 

年份 
( YR ) 

册数_ 

页码_ 

参考资料 来源: 
( SO ) 


研究 设计: 

设计 类型: 
( DT ) 


如果使用不同控制 •_ 
( NEC ) 


如杲使用随机分配 
( HA )： 


_四个字母编码 


1 . 电脑的搜索 

2. 以往的综述 

3. 参考目录列表 

4. 个人联系 

5. 其他 


1. 一组前测与后测 

2. 不同的控制 

3. 随机分配 


1. 不相符 

2. 同替代的前测相符 

3. 与前测相符 


1. 随机分配学生 

2. 随机分配班级 



1 •有 
2.无 


1.是 
2•否 


1. 是 

2. 否 


1. 公共的 

2. 私人的 



其他的设计 特点： 

4 

重复 测暈： 


( RM ) 


平衡： 

5 

( CB ) 


教师作为实验者： 

6 

( TE ) 


样 本量： 


学校： 

789 

( NSCH ) 


班级： 

012 

( NCL ) 


学生： 

3456 

( NSTU ) 


学校 变量： 


所处位置（使用州名缩写) 

78 

( LOC ) 


资金 来源： 

9 

( FDS ) 


学生 变量： 


涉及最低的 年级： 

01 

( LGR ) 


涉及最高的 年级： 

23 

( HGR ) 


社会经济 地位： 

4 

( SES ) 
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续表 _ 


低等合 

较中混 
• • • 


第 2 簟 问题形成阶段 


1. 数学（基础） 

2. 数学汁算 

3. 数学问题解决 

4. 数学概念 

5. 阅读（基础） 

6. 阅读理解 

7. 阅读认知 

8. 写作/拼写 

9. 语言/词汇 


__分钟 


1. 标准的成绩测试 

2. 班级年级 

3. 老师测试 

4. 教科书测试 


1. 白人 

2. 黑人 

3. 其他_ 

4. 随机分配或混合 


种族: 

( ETH ) 


能力水平 
( ABL ) 


设置 •. 

科目: 

( SM ) 


89 


123 



家庭作业对待方式 

对待方式的 周数： 
( WKS ) 

每周作业的频率： 

( ASFR ) 

作业的平均 长度： 

( ASLG ) 

结果 测量： 



( MEAS ) 
具体而言 


列号 • 


续表 


均合 
低 f 卨混 
1 .ri3.4 
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续表 


列号. 



统计 结果： 


家庭作业的平 均值： 

56.78 

( HX ) 


家庭作业的标 准差： 

90. 12 

( HSD ) 


家庭作业的样 本量： 

34567 

( HN ) 


X 家庭作业的平 均值: 

89.01 

( NHX ) 


无家庭作业标 准差： 

23.45 

( NHSD ) 


无家庭作业的样本量 .• 

67890 

( NHN ) 


推论测试 类型： 

1 

( INF ) 


23.45 


67.89 


0.0123 


4 


56.78 


测 试值： 

( INFVAL ) 

# 测试: 

( INFDF ) 

/> 水平 测试： 

( INFP ) 

效应量 方向： 

( ESD ) 

效应 里值： 

( ESV ) 

其他统计 信息： 

在分析（单）上的其他变量 



\.F 

2.t 

3•其他 


1. +( 喜欢有家庭作业) 

2. -( 喜欢无家庭作业) 


涉及家庭作业的显著性交互作用 
变量_测试值_ df _ 
变量_测试值__ df _ _ 
变量_测试值_ df _ 

编码信息： 

-— 编码者 IU : _ 

( CID ) 

注释和 评价： 
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第五栏用来确定研究中的独立样本（样本 ID 号码）。在一 
个申•独研究（例如，分别是一年级学生和二年级学生的研究） 
中，如果给出了做家庭作业和不做家庭作业条件卜•不同学生群 
组之间的比较信息，那么这样的编码对每个样本都会有不同的 
价值。第六栏和第七栏比较了一个样本内做家庭作业和不做 
家庭作业的群组，并给予唯一的一个标识 （ 比较 ID 号码）。因 
此，对于同样的学生群组，这种编码可以把测量的多重结果区 
分开来（如标准化的成绩测试和班级年级）。在第4章，我将详 
细解释研究报告中使用四个单独确认值的原因。 

大多数剩余变量和编码背后的理论依据是不言自明的，关 
于结论的一些解释说明了检索到了什么样的信息，为什么这些 
信息可能对人们有所启发？即使这样的类別是以前建议过的， 
研究设计部分也不会包含任何种类的相关性研究。这是因为 
以前使用的相关设计的研究总是将学生花在家庭作业上的时 
间作为一个连续变暈，这样就可以为这些研究设计出一份完全 
不同的编 码单。 花在作业上的时间和成绩的相关研究描述了 
一组不同于做家庭作业和不做家庭作业比较的问题。这些问 
题 包括： 作为样本的学生是如何从大霞人群中选取出来的，老 
师、学生或家长是否报告了学生花在家庭作业上的时间。另 
外，表 2. I 中的一些类別与花在家庭作业时间上的研究尤关， 
比如报告的两个离散群组的平均数和标准差的部分。 

同前面建议的相比，对于不对等控制组和随机分配设计的 
编码单需要介绍的稍微详细点。当一个不对等控制组和一个 
与它匹配的程序一起使用时，在区分匹配程序的基础 j : . 要求编 
码者做到 ：（ a ) 使用相同测量的前测作为因变量，或者 （ b ) 与其 
他的前测变量相关但不等同于因变量（可能与性別、种族群体 
或社会经济地位 [SES ] 相匹配）。 在产生 对等组的能力上，这 
两个程序可能也有所不同，因此，我们 nf 以据此解释研究结果 
中的差异。 一 个类似的原因，在做家庭作业和不做家庭作业的 
条件下，对个别学生或整个班级采取随机分配是研究中编码单 
上的一个特征。 

在表 2.1 中，没有一部分是用来描述控制组是如何处理 
的。这是因为在这些比较中，所有控制组的处理方式都是相同 
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的——它们根本不会有家庭作业。因此，可以使用一份单独的 
编码单进行在校监督学习控制组的研究。这些编码单和表 2.1 
很相似，为了与控制组的处理方式相区别，它们里而包含了较 
多编码。在同样的编码单上对没有处理的研究和监督学习控 
制的研究进行编码是不可能的。的确，如果编码者打算直接比 
较研究的结果，使用两种控制组是非常必要的。 

必须指出的是，在已经完成的综述中，许多编码单上需求 
的信息从未最终检查过。除了年级级别之外，有关学生的所有 
信息都是真的（如社会经济地位、种族群体和能力水平）。有时 
候，很少有研究报告丫感兴趣的变量信息（如学生的社会经济 
地位）。在其他情况下，我们会发现一些不会随着某一特征值 
(如众多在公立学校做的研究，少量在私立学校做的研究）的 
变化而变化的研究，这些研究可以帮助我们进行有效推论。 

如前所述，每个编码单都会设计包含一些关于某一单个比 
较的信息。在一些研究中，报告了许多比较，比如，包括的年级 
级别不止一个，或者成绩测量也不止一个。当发现这种研究 
时，编码者就要为每两组比较分別填写编码单。例如，在一项 
针对五、六年级学生的研究里，如果分别报告了标准化的成绩 
测量和班级年级的成绩测量，那么就会产生四个与此研究有关 
的编码单。 


问题形成阶段的效度问题 


在问题形成过程中，我们已经提到，综述者的一些决策会 
影响研究综述的效度。其中最核心的两个问题是 ：变量 定义里 


概念的广度和在研究中搜索基本关系调节量使用的操作细节。 

首先，在界定概念时，综述者仅使用了一些操作，这样做的 
目的是为了确保人们能够对他们界定的概念和可观察到的事 


件在相关性上达成共识。这种共识是一个非常吸引人的科学 
目标。然而，大多数方法论者也赞同对概念可以有多重理解。 
如前所述，如果多重操作产生了相似的结论，对于某些研究结 
论，许多反驳性的解释可能会被排除。同时，关于结果的概括 
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性和稳定性，狭义概念提供的信息很少。因此，同使用的狭义 
定义相比，综述中使用的概念定义范围越广，就越有可能得到 
更具一般性的结论。 

之所以强调“可能”一词，是因为对效度的第二种威胁与 
问题的定义相关。如果综述者对研究操作的细节介绍的过于 
粗略，那么他们的结论很可能会掩饰研究结果的重要特征。在 
整个研究中，如果不同的结果由于使用了广泛的分类而被取 
消，一个错误的结论——研究结果指明的结论中可以忽略的差 
异会 出现。 

当然，如果认为研究检验的是完全不同的假设时，综述者 
就要特别注意操作细节。但是，很少有综述者能够总结出下& 
的结论，即由于研究中方法的变化，对文献进行综合是不可能 
的。因此，大多数综述都包含 T 一些对效度的威胁，主要是因 
为它们忽视了研究之间存在的差异。但这种风险在不同综述 
中的表现程度也不相同。 

有时候，在研究相同的变量时，不同的综述者得到的结论 
也不相同。当发生这种现象时，我们不应该把它称之为一种 
“效度威胁”，是因为在两位综述者中，如果仅凭主观地认为哪 
位综述者使用的定义更有效，这不能算是一条客观的理由。他 
们只是对具有相同结构的操作性定义的理解有分歧。很显然， 
如果一个综述包含了另一综述的所有操作和一些额外操 
作——如果对操作细节的处理方式也很合适，此综述就是比较 
理想的综述。在实践中，比较评估可能不会像这些案例一样清 
晰明了。有时，如果两个综述包含了相同的概念，那么它们就 
可以互相使用对方所不包括的操作。 


保护故皮 

在问题形成过程中，综述者可以根据下面的准则来保护他 
们得到的结论的效度，使之免受威胁。 

1 .综述者检索文献时，要尽可能使用最广义的概念定义展 
开搜索。他们应该以一些中心操作为开端进行研究，何 
也应该随时关注文献中发现的其他相关操作。当遇到 
吋疑的 相关操作时，综述者应该做出正确的决策以避免 
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错误操作的发生，至少在研究的最初阶段应该这样。 

2•为了增强概念检索的宽泛性，综述者应该特别注意研究 
特征之间的区别。在初步分析中，对有关不同的研究结 
果和研究特征提出的一些建议，综述者应该进行仔细的 
分析。 


练习 

1 •确定两个与相同或相似的假设相关的综合研究综述。 
哪个研究综述使用了更加广泛的概念定义？有关问题的定义， 
这两个综述在其他方面还有什么不同？在每个综述中，你认为 
哪些方面的问题的定义是最有用的？ 

2. 确定一个概念变量，并列出你所知道的同该变量相关的 
操作定义。找出一些描述你的相关主题的研究报告。你能发 
现多少新的操作定义？评估这些概念变量的一致性。 

3. 就你感兴趣的某个主题的研究，编制一个初级编码单。 
找出一些描述相关主题的研究报告。为了适应这些研究，必须 
对编码单进行怎样的更改？你忽略了哪些？ 
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第3章考察了与综述主题相关的文献检索方法，概要论述了 
文献检索的目的。为了获得研究报告，本章描述了大量的非正式 
渠道、正式渠道及辅助渠道，并特别说明了研究如何进入这些渠 
道，搜索者怎样访问这些渠道，这些渠道包含的各种信息存在什么 
样的差别等问题。 
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在原始研究中，研究者常常通过向人们提问题或观察他们 
的行为来搜集数据。在文献综述中，数据搜集通常是与已有主 
题相关的研究紧密联系在一起的。不管社会科学家们搜集的 
是新数据，还是综合以往的数据，此阶段最主要的工作在于选 
择那些能够对研究起参考作用的目标群体 （ Flower , 1993 ) 。在 
研究中，目标群体由研究者希望描述的一些个体和群体组成。 
研究者需要列出目标群体的准确范围，但研究者很少能获得这 
样的列表。因为众多社会科学假设中存在的真实和谬误要受 
到 H 标群体的偏好和兴趣的影响（他们的结论指的是谁），所 
以，如果要进行一般的总体描述，研究者就必须要说明清楚，这 
一点是十分熏要的。 

不论是原始研究还是综述研究，对于调杳研究的抽样范 
围，研究者应该将那些能作为样本的个体和群体都涵盖进去， 
换言之，必须将其囊括到研究中去。在许多情况下，研究者不 
可能亲自接触到 S 标群体中的每一个样本，如果这样，代价会 
比较大，因为一些人不容易找到或者会拒绝调查合作。 

社会科学研究的总体特性 

原始研究和综述研究之间的相似性。 原始研究和综述研 
究都包括特定的目标群体和抽样 范围。 此外，这两种调査研究 
方式都要求研究者考虑目标群体和抽样范围之间的差异。如 
果抽样范围中的抽样不能代表目标群体，那么任何声称能够代 
表目标群体的研究，其可信度就要大打折扣，因为改变调査对 
象比难以找到作为抽样的个人要容易得多。因此，为了完成一 
项调丧研究，原始研究者和综述研究者都需要严格限制或仔细 
确定 S 标群体。 

原始研究和综述研究之间的差异性。 对于社会科学研究， 
最普遍的目标群体可能会被粗略地定义为“所有人”。当然，众 
多的分支学科则缺少对样本进行针对性的描述，比如“所有的 
罪犯们”或者“所有的学生们”。有的研究主题描述的目标群 
体甚至是特指，比如“所有的强奸犯”或者“所有的中学生”。 
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在社会科学研究中，可使用的抽样范围比一般的对象要求 
更加严格和更具代表性。许多社会科学家意识到，在他们期望 
的研究结果和调查对象的实际可靠性之间存在着一定差距。 

如第1章所述，综述研究包括两个目标。首先，针对某一 
问题，综述者希望自己的工作能够涵盖“以前所有的研究”。综 
述者通过搜集到的文献，也就是他们所选择的信息资源，努力 
来实现这一目的。就像在原始研究中，使用不同的抽样方法导 
致的抽样对象各不相同（比如说，电话调査获得的样本就不同 
于邮件调查取得的样本），使用不同的文献搜索方法得到的研 
究样本也不相同。 同样地 ，寻找和抽样调查一狴人群比其他调 
查闲难得多，发现一些研究比其他的研究也困难得多。接下来 
的部分将介绍一些帮助综述者搜索文献的方法。 

除了想要包含以前所作的研究，综述者还希望他们得出的 
研究结果适用于对某一主题感兴趣的目标人群。比如，在以往 
的研究中 ，一 位对家庭作业研究进行综述的研究者希望描述的 
学生来自所有的年级，而不仅仅是中学生。选择使用的不同类 
型的抽样人群，将会对原始研究产生重要的影响。也就是说， 
综述研究包括一个特定的抽样过程。原始研究包含了个体或 
群体样本以及综述者检索的研究。这个过程和群抽样相类似， 
它根据的是研究者参与的研究项目来划分人群。 

实际上，综述者通常不想从文献中抽出具有代表性的样 
本。相反，他们希望能够检索到与研究有关的整个样本。虽然 
这个宏伟的目标很少能够达到，但是与原始研究相比，在一篇 
综述黾这样做的确是更可行的。 

检索文献的方法 

综述研究者如何发现与一个主题相关的研究？事实上，存 
在大量的渠道来交流科学信息。过去20年间，这些渠道经历 
了巨大变化。实际上，确切地说，在过去的20年里，科学家们 
相互交流渠道的转变比以前三个世纪的都要大，就像17世纪 
末期学术期刊的首次出现所带来的巨大改变一样。从根本上 
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说，这一变化，是由于电子计算机的使用方便了人类之间的沟 
通和交流。 

这部分介绍了一些主要的信息交流渠道，综述者可以通过 
它们查找研究。众多的渠道需要搜索者能够精通计算机和直 
联网。如果读者们对互联网的操作不太熟悉，他们则可以从众 
多的互联网使用指南中得到咨询和建议（比如， Hahn ， 1996)。 

通过把每一渠道包含的信息内容与“所有相关研究”进行 
比较，或者是与综述者将会发现的与研究主题相关的整个研究 
群体进行比较，我们就可以尝试着评估包含在每一渠道中的信 
息。遗憾的是，在不同的科学信息渠道里，只包含了少许不同 
的实验数据。因此，对我们而言，大多数的比较中都包含了一 
些推测。由于一条渠道特征对其内容的影响吋能会随着主题 
的不同而变化，这样就使问题进一步复杂化了。 

同时，信息交流方式的激增，使得人们越来越难以找到一 
些有用的描述，来帮助我们思考这些沟通渠道之间的区别和联 
系。交流机制在偶然的状态也会岀现，因此，所有的相关描 
述并不能完全捕捉到全部研究的重要特征。 

综述者可以用一些非常有用的特征来描述不同的搜索渠 
道。研究如何进入这一渠道，是区分科学的沟通渠道的一个重 
要特征。进入这条渠道可能相对幵放或者有限制性规则。开放 
的渠道允许原始研究者（想在渠道中放入某些东西的人）直接进 
入这条渠道并引导他（或她）进行信息搜集工作。有限制的渠道 
需要原始研究者满足第三方的需求——他们和他们研究的使用 
者之间的个人或单位——在他们的工作开始之前能够进人信息 
渠道。为了确保研究质景，在这些要求中，最重要的是使用同行 
评审进行评判。实际上，在进人这些渠道时，所有的渠道都有一 
牲限制，但是在进人方式和严格程度上，不同的渠道之间又有所 
不同。渠道中的研究与其他所有相关的研究之所以不同，正是 
因为这些严格的限制标准对其造成 r 最宣 接的影响。 

搜索者怎样进入这一渠道，是沟通渠道的第二个重要特 
征。根据搜索者访问内容的不间，渠道或多或少的开放或者有 
限制性要求。如果要求文献搜索者（在这一渠道中搜寻信息的 
人）确定想得到哪种文献或者是哪位作者的文献，这条渠道的 
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限制就更多。如果文献搜索者比较宽泛地搜寻所需要的信息， 
这条渠道就会更开放。可见，不同的搜索需要可能会影响搜索 
者在某条渠道中发现的研究类别。 

最后，渠道对以具有它们所包含的不同研究的各种信息。 
详细性说明的渠道包含的期刊文章或研究报告比较完整。概 
括性说明的渠道通常仅包含研究摘要、研究综述、 B 录信总，或 
者为了获取完整的报告，也会包含以上的三种信息。 

当我描述了它们如何与特定的研究渠道相联系，这些区别 
的重要性会变得很清晰。为 r 能说明清楚，我把这些渠 道作了 
如下标题的分类 ：非正 式渠道、正式渠道和辅助渠道。接下来， 
我将使用家庭作业问题的研究综述作为一个实际案例。 

非正式渠道 

在调整原始研究者和文献搜索者之间的关系时，非正式沟 
通渠道的特 征是： 缺少清晰的规则。 

对这类信息没有限制，它们可以通过非正式渠道相互交 
流，在特殊情况 F ， 没有第三方来充当信息交流的媒介。非正 
式沟通的五条渠道 是：个 人联系 、恳请 信件、传统无形学院、电 
子无形学院和万维网。我把它们的特征总结在表 3. 1中。 

个人联糸 

综述研究者主要依靠他们自己的研究来获取最直接、可靠 
的信息。因为在其他人看到研究结果之前，原始研究者巳经知 
道了结果。因此，通过总结我所做的与家庭作业问题有关的研 
究，我将开始做此项综述 （ 实际上，在我做这项综述之前，没有 
过多的研究介绍过此问题）。虽然这一点看上去似乎是比较明 
显的，但确实是一个关键问题。如何把研究文献作为一个整体 
进行解释，综述者个人实施的原始研究通常可能会过分地强调 
对其产生的影响 （ Cooper ，1986) 。 

研究者个人的研究能够和所有相关主题的研究明显 K 別 
开来。每一位研究者的研究很可能在重复别人同样的操作，他 
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个人联系 

个人恳请 


表 3.1 检索文献的非正式渠道 

研究进入的限制搜索者进入的限制包括的信息类型 

搜索者必须知道必须联 系同事 具有相似的方法 

研究人员 和结论的研究 

搜索者必须知道必须有地址联系与组织偏差相一 
研究者的状况 致的研究 


传统的无形学院研究被著名研究必须联系到核心具有相似的方法 

人员所接受 研究者 和结论的研究 


电子的无形学院研究人员必须订必须订阅同样的包含在主题领域 

阅电子列表 计算机列表 内的任何事情 


万维网 研究者必须是计必须使用合适的任何事情 

算机使用者 搜索术语 


们有可能使用的是同样的操作工具、方法或实验参与者。这些 
变化即使能够在所有的相关研究中很好地描述出来，但是，许 
多和一个主题领域相关的操作及抽样的变化，在任何特定的实 
验室可能没有对其进行检查。举家庭作业研究的例子来说，我 
可能仅仅专门使用老师给出的分数作为衡量学生成绩高低的 
标准。其他研究者可能会使用课本和标准化测验而不是依据 
老师给出的分数来衡量学生的成绩。当然，在招募测试者时， 
研究者通常会选择同样的分组人群，例如在家庭作业研究中， 
研究者会选择同一学校区域内的学生进行分组。 

其他的个人联系发生在研究者实验室之外。学生和教授 
之间经常相互传阅他们发现的共同感兴趣的论文或文章，然后 
一 起讨论并分享心得。 一 位同事在礼堂里可能偶然养到了某 
本期刊上有一篇关于家庭作业的文章，并且，他知道我对这个 
方面研究感兴趣，就会把它推荐给我或者我指导的一个学生。 
有时候，以前参与研究的读者会指出他们认为与研究主题相关 
却未能在研究报告中引用的文献。当研究报告已出版，但是它 
可能出现在部分手稿的审查过程中，这种情况有时就会发生 3 
因此，对于做家庭作业研究综述的研究者来说，按照期刊出版 
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者的建议增加一些综述中没有提及的相关文献是很正常的^ 
当开始做家庭作业研究综述时，我将把这些文献增加到相关研 
究参考目录中。 

一 般来说，个人联系是一项受限制的沟通渠道。原始研究 
者必须知道，文献搜索者采取了哪种方式进行信息交流 。为了 
获取相关的信息，搜索者必须单独指定他们知道的研究者进行 
信息交流。因此，十分像一位研究者自己的工作，在非正式社 
会系统中，通过个人联系或者是从朋友、同事们那搜集来的信 
息，将反映出搜索者的方法或理论偏好。与所有相关的研究相 
比，通过个人联系获得的研究结果可能是最单一的。所以，在 
研究综述中，与朋友、同事们的个人联系并+是研究的唯一来 
源。单靠这些渠道搜索相关文献的研究综述者扮演的角色，就 
像决定只从他们的朋友中进行抽样的测量员一样。 


个人巷请 


个人恳请能够减少信息样本的偏差。这些联系包括，搜索 
者们首先确定可以获得相关研究报告的正式的个体群。 

接着，即使搜索者不认识群组里的成员，但是，在获得了群 
组成员的名单后，他们可以通过信件、电子邮件或电话逐个联 
系这些成员。在搜索家庭作业的研究时，这种方法体现为三种 
方式 ：第一 ，我把信件邮寄给25位教育学院的院长，让他们把 
研究计划介绍给所在的院系人员，并请求他们把相关的研究邮 
寄给我。通过这种方式我得到了 7条富有成效的信息。第二， 
我把恳请信寄到遍及美国53个州的主要教育机关。其中有36 
个州冋复了此信，有6个州回复了他们州内有关家庭作业的评 
估结果。最后，我还得到了一份全国学区评估与研究协会发来 
的研究和评估学区的邮件目录。虽然邮件 R 录的内容不全都 
是和研究主题相关，大约有一半的学区还是回复了恳请信，还 
有11个学区提供了家庭作业的研究报告。比如，有些报告评 
估了家庭作业热线的效果。 


辞晚无形学晚 


无形学院作为另一种非正式沟通渠道，它受到的限制比个 
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人联系少一点。根据克兰 （ Cnme ，1969) 所讲，传统尤形学院形 
成的原因是“从事类似问题研究的科学家们彼此之间通常比较 
熟悉，通过彼此间的交流合作，在某些情况下试图使他们之间 
的联系更加系统化” （ P . 335 ) 。通过一种社会计量分析，克兰 
发现许多无形学院的成员不直接与他人联系，而是与一小部分 
貝有 较卨影响力的成员联系。根据小组沟通理论，传统无形学 
院被构造的像轮轴一样，具有重要影响力的研究者处于中心地 
位，具有较少成就的研究者则处于边缘地位，而线型沟通则主 
要趋于中心而很少趋于边缘。 

传统无形学院的结构特征取决于过去信息在科学家之间 
的非正式传播，这种传播渠道主要依靠邮件和电话两种媒介。 
这两种媒介每次只需要两个人就能互相交流信息（尽管多元双 
向沟通可能平行发生，比如说，大景的邮件），但这两个交流者 
彼此间必须相互/解、熟悉。对于相互熟悉的研究者群体来 
说，有影响力的研究者能够作为中心，他们决定了信息的输入 
和输出。 

当开始做家庭作业研究综述时，我没有意识到谁将町能成 
为无形学院的中心人物。然而，当我从其他渠道搜集信息时， 
发现从事同一研究的研究者反复岀现。有时候，我会偶然遇到 
相同作者进行的多个研究。通常，参考 B 录中引用了这些相同 
研究者的研究。通过这一过程，我列岀了一个13人的名单，我 
想他们可能就是从事家庭作业研究的中心人物。 T 是，我写信 
给他们并得到了通过其他渠道无法得到的三项研究报告。 

在传统无形学院中，与具有影响力的杰出研究者进行信息 
交流，是评估这一渠道传播的信息偏差的关键因素。仅通过联 
系传统无形学院中的核心研究者搜集研究的综述者可能发现， 
与通过多种来源搜集的研究相比，核心研究者的研究更能得到 
人们的支持和认可。这是因为初出茅庐的研究者得出的结论 
可能与传统无形学院屮的核心研究者得出的结论相矛盾，所 
以，前者的研究不太可能进入到这条渠道当中。即使能进入到 
这条渠道中，他们的研究结果也很难在整个网络得以广泛传 
播。不确定的研究结果可能导致研究者不再使用网络，而积极 
参与到无形学院中。同样，因为传统尤形学院的参与者彼此之 



M 3 ^ 文献检索阶段奶 


间像一个参照组，比起那些对某一特定问题共同感兴趣的研究 
者来说，参照组内成员们研究使用的各种各样的操作和测量更 
加相似。 

电子无形学晚 

传统无形学院至今依然存在，但同时也存在着一种新型的 
无形学院。随着互联 N 的岀现，维系科学家群体对同一主题感 
兴趣的信息交流中枢的需要程度已经减少了。原始研究者可 
以利用互联网同时把相同的信息发送给全世界的同事们，时不 
用准确地知道接收者是谁。同样，文献搜索者们能在一群他们 
不认识的人群中寻找到相同的信息。电子无形学院主要是通 
过使用计算机化的列表管理程序，称之为 listservs Jistprocs 、 Ma - 
jorclomos ， 或者通过新闻组（ newsgroups ) 实现其操作。通过对电 
子邮件的自动回复和发布新的消息，这些程序保证了邮件列表 
始终存在。邮件列表和新闻组之间的区別在于，邮件列表会把 
材料自动地发送给搜索者，而新闻组则会等待清求冉发送。新 
闻组也要求用户们在使用这一程序之前对它有更多的了解。 

虽然是个人作为列表协调者，但在不可调节的邮件列表 
中，电子计算机常常作为交流中枢，所以与传统无形学院相比， 
电子邮件列表和新闻组的限制较少。它传播着收到的没有对 
其内容施加任何限制的交流信息。在4调节的邮件列表中，成 
员名单吋以私人持有，并且准人、内容或二者都将受到筛选，所 
以这些功能更像传统无形学院。 

一旦人们知道了列表存在，通过给他们的主机发送一个简 
单的命令，任何人都可以加入到邮件列表或新闻组当中。因 
此，与使用传统无形学院的搜索相比，使用邮件列表或新闻组 
搜索文献的研究者能获得更多不同类型的研究。但通过邮件 
列表或新闻组搜索，仍不能涵盖所有相关的研究方法和结果。 
举例来说，通过使用美闰心理学会 （ APA ) 教育心理学分会的列 
表服务器 （ listserv ) ，我可能会尝试着搜集有关家庭作业的调査 
研究。用户们使用这一列表，可能会发现能够代表大多数做大 
规模调查或实验的研究者和少数能够代表做民族志研究的研 
究者。我也使用户们与美国教育研究学会 （ AERA ) 学习与方 
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法分会取得了联系。在这里，民族志研究可能被更好地描绘出 
来，但是可能对受过特殊教育的学生们缺少系统研究。同时， 
电子无形学院的发展趋势和传统无形学院不同，它由一小群积 
极分子所控制。 

文献搜索者怎样找到邮件列表或新闻组呢？他们可以在 
印制的目录（如互联网黄页），互联网 S 录（如可以通过网页 
http ；// www . liszt . com 找到李斯特的目录），或者可以通过给列 
出的列表发送电子邮件指令（如 listerv @ listerv . net ) 进行査询。 
通过査询网站 http ：// n 2 H 2. com / kovacs ， 我们可以在《电7 1 期刊 
目录》、《时事通讯和学术讨论组》 （ 研究图书馆协会，1997 ) 或 
《学术和专业电子会议目录》找到专门的学术邮件列表和新闻 
组目录。而且，通过浏览一些研究机构的网站，我们也可以发 
现邮件列表和新闻组。 

对家庭作业研究的邮件列表和新闻组，我的搜索结果并不 
富有成效。我发现家庭作业研究的列表和实际问题有关，而不 
仅是研究。这些列表侧重于为家庭作业的研究提供帮助或为 
不同的主题领域提岀好的建议。对我而言，使用电子无形学院 
最好的策略是汀阅研究学会（如美国心理学会和美国教育研究 
学会）的邮件列表。为了家庭作业研究，我给其他用户们发出 
了一个请求。大多数收到请求的用户可能帮不上什么忙，但是 
有些用户也许会提供我所感兴趣的信息。另一项策略是创建 
一 个家庭作业研究的列表名录，这一过程可能会花费大量的时 
间，但一旦建成，收益巨大。 

不论是传统无形学院还是电子无形学院，都是暂时性的， 
都是为了处理特殊问题形成的非正式实体。当问题解决或者 
关注焦点发生转移时，它们就会消失。尽管具体的无形学院是 
不定的，但毋庸质疑的是，它们调节了研究者在信息交流上花 
费的大量时间。 

万维网 

万维网是一个在电子计算机之间提供链接的系统，它使得 
在互联网 h 各网站之间的联系变得简单。提供资源的一种计 
算机程序，叫做服务器 （ servers )。 被连接到计算机程序并有权 
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使用这些资源的人，叫做客户 （clients ) 0 实际信息在服务器和 
客户之间主要以网站或网页的形式进行交换。任何精通网络 
技术的人，都能建造网站。但是，其信息进人此系统是有一点 
限制的。一个有权使用互联 N 浏览器（可以访问 网址的 客户程 
序）的文献搜索者，将特殊网站的网址（被称为统一资源定位 
器）输入电脑。客户程序就会联系服务器程序，并把网页发送 
到搜索者的电脑里。 

研究综述者使用网络最主要的问题在于发现相关的网站 
地址。搜索引擎或导航器 （ navigators ) 都是指明网站的程序。 
搜索者在搜索引擎输入一个或一组搜索术语，搜索引擎将会与 
它的术语索引相比较。接着，搜索引擎会提供给搜索者一个与 
关键词描述相符的网站列表，主要是因为这个网站网页上的某 
一 个地方通常包含着相关的关键词或词组。 

在我们的大学，我可以使用一个和因特网相联系的程序。 
当启动这一程序，它可以提供若 T •个搜索引擎供我使用。这些 

搜索引擎卞•要包括 Alta 、 Excite 、 Infoseek 、 Lycos 、 Webcrawlei •和 
Yahoo 。 一 般的搜索引擎在搜索上有很多相似之处。最重要的 
是，搜索者…以使用布尔语法操作 （Boolean Syntax Operators ) 来 
扩展或限制他们的搜索。 

使用布尔操作，搜索者可以使用集合论 （set theory ) 来帮助 
界定搜索检索到的项目。在搜索引擎里输入“家庭作业”这一 
术语，搜索引擎搜索后吋以提供给一个有关此术语的所有网站 
列表，就可以开始家庭作业研究的搜索了。在往搜索引擎里输 

人“家庭作业 （homework ) ”和“家庭研究 （home study ) ”进行检 

索，就可以扩展到包括“家庭研究”这一术语的搜索。在往搜索 
引擎里同时输人术语“家庭作业”和“研究”，就可以把搜索范 
闱限定在与此相关的特定网站上。甚至可以更进一步，检索彼 
此相邻的关键词（“家庭作业”和“研究”）或者排除含有其他搜 
索术语（如含“家庭作业”不含“大学”）的网站。 

在索引薄中如何编订这些网站的 H 录，如何使用布尔语法 
搜索的精确指令，每一个搜索引擎会有所不同。有些搜索引擎 
使用同语来描述布尔操作，其他的使用符号 （ 比如说“ + ”和 
“ -”）进行描述。一般的搜索引擎都会提供在线服务来指导 
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使用者学会使用。 

万维网的另一个重要方面是使用超文本直接链接网站。 
许多网站（特别是通过搜索引擎产生的列表）都包含和网站的 
友情链接。如果这些友情链接以某种方式突出表示出来，即用 
下划线或某一特定的颜色显示，那么，通过点击这些链接，搜索 
者就可以直接访问新的页面。提供这些链接的网站，我们通常 
称之为主页。 

有时，使用万维网查找某一特定主题的科学研究，可能会 
使人感到沮丧或费时，因为有些网站包含了太多与研究无关的 
信息。另外，研究者们也不习惯把研究报告或摘要直接放到网 
上。写作本章的那一天，我在网上搜索的有关家庭作业信息的 
网站有成千上万个。当我输入“家庭作业”和“研究”进行搜索 
时，网站数量减少到约100个。当我输人“家庭作业”、“研究” 
和“成绩”进行搜索时，网站就只剩下一个了。这个网站上包含 
/ 一套以研究为基础的家庭作业练 > J 指南，用以提高学生们的 
成缋。 

为了克服这个问题，搜索者可以使用一个更专业的搜索引 
擎来检索与社会科学相关的特定网站。一个叫做“社会科学研 
究引擎”的网站，列出了这些吏具专业性的搜索引擎，见 WWW. 
carleton . ca /- cmckie / research . html 0 使用“研究引擎”和“社会 

科学”一词进行搜索，可以得到列出了这些搜索引擎的网站列 
表。这些网站列出的搜索引擎列表主要提供给有权使用研究 
记录册和参考数据库的计算机，这些我将在下面描述。 

以上我所列举的万维网查询策略仅仅是众多方法中的一 
部分。通过实际操作，搜索者对他们有用的资源会更加熟悉， 
并知道如何进行检索获得相关的材料。 

迄今为止所有讨论的渠道都有一个重要 特征： 在评估它们 
包含的研究的方法质量时，可能没有经 过同行 评审。对于两个 
同事之间相互发送或交谈的信息、电子邮件上的消息或网站上 
的内容，没有什么限制。因此，与相关研究的汇编相比，通过非 
正式渠道搜集的研究样本所包含的研究更可能在方法上#在 
瑕疵。正因为如此，这些研究将永远不会出现在限制性较强的 
交流渠道中，更加严谨的研究可能会出现在研究期刊上，不会 



通过无形学院或网络得以传播。 


M 3 $文献检索阶段 


正式渠道 

正式沟通渠道有着清晰的规则，原始研究者必须遵循这些 
规则，并把信息输入到这些渠道内。这些规则通常超出 r 简单 
的格式化要求或是计算机者拥有的知识。它们设置了系统承 
认的限制性条件或信息质量评判标准。正式渠道主要包括四 
种 ：专业 会议论文报告、个人期刊库、电子期刊和研究报告参考 
目他们的特征总结在表 3. 2里。 


表 3. 2检索文献的正式渠道 


渠道 

研究进入的限制 

搜索者进入的限制 

包括的研究类型 

专业会议论文 
报告 

研究必须经过同 
行评审 

必须知道会议 

任何学科或者主 
题领域内的 
事情 

个人期刊库 

研究必须经过严 

必须订阅或阅读 

任何分支学科或 


格的同行评审 

同一期刊 

者主题领域内 
的事情 

电子期刊 

列出订阅者或经 

必须订阅或阅读 

仟何分支科学或 


过同行评审 

同一期 W 

者主题领域内 
的事情 

研究报告参考 

文章的作者必须 

必须订阅或阅读 

期刊网络内的主 

S 录 

知道研究 

同一期刊 

要研究 


专止会议办文板告 

大量的社会科学专业团体，由具有相同职业或共同关注某 
•一问题的人组织起来，这些团体还定期组织年会。通过参加这 
些会议或査阅参与者提交的论文题0，研究综述者就能够发现 
其他人在他们的领域中正在做什么研究，最近 完成了 哪驻 
研究。 

与个人联系和传统无形学院相比，通过会议计划发现的研 
究揭示出研究结果或操作的限制性样本的可能件较小 。 使用 
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互联网能够发现类似于多样性的可能性较大。与恳请信和互 
联网搜索相比，在会议或学术会议上介绍的论文经受 M 行评审 
的可能性更大，所以它们的方法质量应该更高。 

这些会议选择论文的标准，通常不像期刊发表一样严格。 
与经过同行评审提交给期刊的稿件相比，提交给学术会议的论 
文被接受的几率更大。同样，研究者把论文提交给会议委员 
会，委员会评审后提出的建议也不是非常详细。最后，一些研 
究者接受了会议组织者的邀请并提交了论文。这些论文并不 
是从写作质量的角度来评审。从积极的角度看，提交给会议的 
论文比期刊文章可能更容易被接受，主要是因为研究者在写好 
可以发表的稿件之前，可能提交了论文。而从提交稿件到印刷 
成册，期刊的滞后性往往较长。 

就家庭作业研究综述来讲，我查阅了美国教疗研究学会近 
几年的会议计划，虽然没有发现比较新颖的研究，但是并不意 
味着这条渠道对其他搜索没有价值；人约有10%的研究正是通 
过专业会议提交的 （ Cooper ， Deneve ，& Charlton ，1997 ) 。我也查 

阅了地方教育协会的会议论文。 


个人期刊摩 


综述者通过査阅他们自己订阅的期刊，或查阅他们单位图 
书馆订阅的需要定期査看的期刊，就能够获悉某一主题领域的 
研究状况。纸质期刊来自于正式的科学交流系统的中心。他 
们是原始研究者和研究综述者之间的传统链接。 

《全国学术交流咨询报告》 （1979) 发 现：在 一些社会科学 
学科内，平均每一位学者大约浏览七种期刊，定期浏览四种或 
五种其他期刊。众多学者说他们每周要花费10到12个小时 

阅读学术书籍或期刊。这些材料大部分是他们自己订阅的。 
金、迈克唐纳和罗德罗 （ King , McDonald , & Roderer ，1981 ) 调查 

了积极活跃的科学研究者，发现他们阅读的文章中有69%来源 

于个人的期刊副本。 

把个人期刊库作为研究的唯一或主要来源进行搜索，往往 
存在一些严重的偏差。因为和研究相关的期刊数量一般远远 
超过单个科学家例行翻阅的期刊 M 。 早在1971年，加维和格 
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里菲思就指出 .•通 过个人阅读和订阅期刊，学者们已经丧失了 
与他们的专业相关的所有信息保持齐头并进的能力。 

如果每位科学家阅读的期刊是所有可用期刊的一个随机 
样本，信息超载将不会是一个严重问题。然而，科学家倾向于 
阅读期刊网中的期刊 （Xhignesse & Osgood ，1967 ) 。这些期刊 

网由少 fi 期刊组成，它们更多引用的是在其他网络期刊中发表 
的研究。 

假设个人期刊库可能包括同样网络的期刊，人们发现一些 
与网络成员有关的偏差就不会让人奇怪了。正如个人联系和 
无形学院，与一个主题领域内所有可用的研究相比，人们期望 
在一个特定期刊网内的研究成果和操作的同质性更强。 

使用个人期刊库作为信息的来源就在于它的可访问性。 
对于参照组，当综述者希望了解这一工作，它的内容应该是可 
信的。应该使用个人期刊库为综述査找研究，但它们不应是获 
得信息的唯一来源。 


同行评审和发表偏倚 


在决定一份特定的研究报告是否可以发表时，大多数纸质 
期刊使用了同行评审进行评定。期刊编辑将报告送给评审者， 
由他们来判断该研究是否合适发表。评审者使用的主要评判 
标准是研究的方法质量。一方面，他们在寻找方法上的瑕疵， 
因为这可能会对研究者的推论产生威胁。另一方面，他们也在 
寻找防止推论错误的保护措施。 

科学、严谨的研究并不是决定研究是否发表的唯一标准。 
很显然，发表的研究在统计显著性结果上是偏倚的，如果概率 
P <0.05, 在研究结果中就将拒绝此类的虚无假设。这种偏倚 
往往出现在评审者和原始研究者共同所作的决定中。 

阿特金森、弗隆和瓦帕尔德 （Atkinson , Furlong , & Wam - 

pold ,1982) 做了一项研究，他们向顾问编辑索要了两篇美国心 
理学会的辅导心理学期刊来评审稿件。除了假设关系是否是 
统计显著的因素之外，稿件的所有方面都是相同的。他们发 
现，与没有显著性结论的稿件相比，有显著性结论的稿件获得 
推荐发表的机会要比前者多两倍。进一步来说，即使在方法相 
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同的情况下，与没有显著性结论的稿件相比，有统计显著性结 
论稿件的研究设计要比前者好。 

原始研究者也容易受到虚无假设偏见的影响。格林沃尔 
德 （ Greenwald ，1975 ) 发 现：研 究者声称他们倾向于提交的用于 
发表的，并具有显著性结果的研究大约占60%。但是，研究者 
宣称，如果研究的结论不能拒绝虚无假设，他们提交的用于发 
表的研究仅占6%。通过分析研究者的实际决定，库珀等 
(Cooper et al . ,1997) 发现，大约有74%的研究者提交了用于发 

表且具有显著性结果的研究，而仅有5%的研究者提交了没有 
显著性 结果的研究。研究者打算不提交没有显著性结果的研 
究可能是 因为： 他们认为，与有显著性结果的研究相比，人们对 
没有显著性结果的研究不感 兴趣； 他们还可能认为期刊编辑们 
更有可能会拒绝虚无结果的研究。 

对虚无假设的偏见并不是影响研究结果发表偏倚的唯一 
来源。多年以前，我们就知道，如果研究者的研究结果与当时 
的主流观点相矛盾，那么他们提交的研究结果就不易于发表。 
反之，如果研究者的研究结果和主流观点一致，则他们提交的 
研究结果就易于发表 （ N U mial ] y ，1960)。 N 样地，期刊评审者更 
喜欢支持传统观念的研究，而不喜欢与传统观念相悖逆的研 
究。布拉德利 （ B r adeley ，1981 ) 的报告指出，通过邮递问卷形式 
的调査发现，76%的大学教授声称他们遇到了一些压力，即他 
们的研究要符合评审者的主观偏好。这些现象被称为集体确 
认偏差。 

在与所有相关研究里发现的差异性相比，发表的显著性标 
准确保了研究里的大量群组的关系和差异性要比前者大。贝 
格和柏林 （Begg & Berlin ，1988) 对虚无假设偏见的统计特征进 
行了详尽描述。利普两和威尔逊 （Lipesy & WiUmi ，1993 ) 经过 
实证研究证实了发表偏倚 3 他们考察了 92个元分析，这些元 
分析展示了在公布和未公布的研究报告中发现的有关处理效 
应的单独估计数。其中，已经公布的估计数比未公布的估计数 
大约多三分之一 *0 

对虚无假设的偏见和确认偏差意味着，除非综述者能非常 
确定这些所谓的偏倚在特定主题领域是不存在的，否则，经同 
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行评审的期刊文章不应该作为一篇研究综述的唯一信息来源。 
对于家庭作业研究综述，我的个人期刊库包括了用于查阅相关 
研究的五种期刊，它 们是： 《美国教育研究》、《教育心理学家》、 
《小学杂志》、《教育心理学杂志》和《实验教育杂志》。 

电子期刊 

电子期刊使用了计算机储存介质，比如互联网计算机服 
务器或压缩盘——只读存储 （ CD-ROM ) 技术，传播并存裆了 
学术性研究报告的整个文本（参 见： Schauder ，1994，对电子期 
刊历史的完整描述）。有些期刊以纸质和电子版的形式同时 
出现。其他的期刊要不完全是纸质的，要不完全是电+版的。 

电子期刊和纸质期刊的区别主要表现在两个 方面： 第一， 
许多电子期刊不使用同行评审程序。对综述者来说，知道哪些 
电子期刊是经评审提交的文葶，哪些电子期刊是不经评审提交 
的文章是至关重要的，这样他们就可以评估电子期刊里研究方 
法的严 i 堇程度和出现发表偏倚的可能性。第二，与纸质期刊相 
比，电子期刊发表文章的滞后性比较短。随着电计算机技术 
的不断发展，存储容景不断扩人，电子期刊使用起来既经济乂 
方便。所以，与纸质期刊相比，读者们能较快地阅读到在电子 
期刊上发表的文章。 

通过网站 http : // www . edoc . com/ejournal ， 搜索者就能够査 

找到网络虚拟图书馆的电子期刊。在这个虚拟图书馆里，电子 
期刊的类别是“学术和评审 期刊％ 根据是否经过同行评审、学 
生 评审或 未经评审，在这种分类中能够发现科学、技术和医学 
类电子期刊的列表。在恰当的命令行上键人描述符，搜索者就 
能够进入虚拟图书馆。我的关于教育电子期刊的搜索，列出了 
服务器所知道的和教#有关的所有电子期刊的标题（始终在增 
加新的材料）。通过点击任一给出的电子期刊标题，搜索者就 
能够浏览该电子期刊的网页。 

搜索教育电子期刊时，我发现 r 《教育政策分析 丛刊》 。它 
始于1993年，是由亚利桑那州立大学教育学院发行，并由同行 
评审的电子期刊。这种电子期刊的主页被描述在图 3. 1中。 
在主页右边的八个框中的任何一个框，都可以和资料相链接 •- 
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进行连续搜索。另一种刊名为《教育研究与展望》的电子期刊， 
发行已经超过40年，不论是电子版还是纸制版，同样让人觉得 
是值得信赖的。这两种电子期刊都允许进入他们的文档，但是 

在搜索策略上，他们的复杂程度不同。这两种期刊都不包含和 
家庭作业效果相关的研究。 


教育政策分析丛刊 ( EPAA ) 

喊 THrmwnwriff , h— __ A .- ■ 酬 ■ fcw.r 败 



进人文档 

访问编辑 

公告板 

提交文章 
提交评论 


< g ^ AA 是个 你是 EPPA 自1995年 信用 

供信息检索 12月1日来第75182位 - 

选择的网站 访问者 ^ BPi ' 

文档 I 摘要 I 编辑 I 公告板 I 提交 I 评论 I 订阅丨 搜索 


图 3.1 教育政策分析丛刊主页 

资料来源 : http://o 〗 an^ ed. asu. edu/epaa/ 

研走板 4 麥考 g 袭 

另一种搜索方法有时称为祖系参照法 （the 

ancestry ap - 

proach )。 对搜索者来说，它涉及搜索者查阅他们已经获得的 
研究报告，并用来观察研究报告中是否包含着尚未可知的参考 
文献。搜索者可以根据对问题和研究的相关程度做出判断进 
入参考目录。如果与研究相关，搜索者可以检索到摘要或整个 
报告。为了更好地指导研究，搜索者需要仔细分析这些报告的 
参考目录。经过反复分析，直到重要概念消失或他们判断研究 
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已经过时并变得陈旧，搜索者就会査找新的参考目录并开始新 
的研究。 

然而，报告的参考文献很少能列出相关研究的全部文献列 
表。相反，它们的目的是提供能够解释新的原始研究的背景资 
料。此外，期刊文章参考 H 录可能只列出了在网络期刊中具有 
代表性的研究。 

总地来说，如果有人查阅一篇期刊义章的参考文献，会发 
现大约有三分之一引用的是在相同期刊中出现的他人的研究， 
大约有三分之 一 引用的是相同网络中其他的期刊 （Xhignesse & 
Osgood ，1967 ) 。 为了 形成他们的个人图书馆或参照组，在任一 
研究报告中，原始研究者将倾向于通过同一途径或小组途径来 
引用别人的有效研究。因此，与所有相关研究中出现的研究相 
比，搜索#期望通过报告参考目录得到的研究更具同质性。同 
时，搜索的参考目录列出的多是发表过的研究，因为同未发表 
的研究相比，发表过的研究更容易杳找到。 

虽然报告中的参考目录不应该作为査找研究的唯一手段， 
但它们通常是获取相关研究的一种丰富来源。尽管我不能准 
确说明其数量，但通过杳阅报告的参考 B 录，我发现了许多家 
庭作业研究的文章。 

辅助渠道 

辅助渠道提供了有关原始研究的文献信息，有的辅助渠道 
其至包含了文献。这种渠道由第三方构成，主要是能明确提供 
给文献搜索者一个与主题相关的相对全面的研究列表。它主 
要提供给研究者现存和前人累积的各种原始数据信息。从此 
种意义上讲，这也是它与因特网搜索、报告参考文献的区别所 
在。我把主要的辅助渠道概括在表 3. 3中，包括参考书目、研 
究记录册、参考数据库和引用索引。 
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表 3.3 检索文献的辅助渠道 


渠道 

研究进入的限制 

搜索者进入的限制 

包括的研究类型 

研究参考书 S 

编辑者必须知道 
研究 

必须知道参考 
书目 

主要出 版的； 最 
近的研究缺失 

预期的研究记 
录册 

编辑者必须知道 
研究 

必须知道记录册 

大规模，资助 
研究 

参考数据库 

研究必须包括 
来源 

必须使用合适的 
搜索术语 

主要出版的；最 
近的研究缺失 

引用索引 

研究必须引用出 
版物 

必须知道研究中 
引用的文章 

主要出版的研 
究； 最近的研 
究缺失 


研堯参考书9 

研究参考书 H 是非评估性的书籍或文章题目的列表，通常 
与一个特定的主题领域相关。参考书目主要由一个特定研究 
领域内的单个科学家或个別团体提供，而非由一个正式组织提 
供。有时，在研究过程中，我们可能还会发现参考书目的0录。 
全国科研情报研究服务委员会公布丫一种作为心理学方面的 
参考书目的目录，列出的参考书目超过了 2 000种。 

另一种形式的参考书目是以往研究综述者提供的参考目 
录。很显然，这些是获得相关研究特别丰富的来源。可是，搜 
索者却不应该假定以前综述的研究成果是建立在所有相关研 
究的基础上。对于家庭作业综述，我检查了 9个以往综述的参 
考目录 ，计算了每一对综述里出现的研究重叠部分的数量。我 
发现在多数研究中，任意两篇论文共同使用的参考书冃不到 
一半。 

对于综述研究者来说，使用别人准备的参考书 H 能够为研 
究节省大量时间。 m 问题是，众多参考书目所列的文献可能比 
研究者的兴趣范围更加广泛，并且可能含有某些偏好。所以， 
大量最新研究的参考书目需要不断更新。其他搜索者查询后 
得到的综合0录也能给研究综述者带来较火帮助。另外，为了 
获得信息，编辑人员已经花费了大量时间，参考书 s 中产生的 
偏差可能会与综述荇个人搜索中存在的偏差相抵消。 
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政府文件 

与参考书 H 有关，政府系统自己出版的文件是一个向成一 
体的信息检索系统。如果搜索者没有打算使用该系统，就可能 
会错过使用它。 

政府文件可以分为很多种，其中，与我们当前研究联系最 
紧密的被称为研究文件专家。大多数政府文件由政府印务局 
( GPO ) 或全国技术情报服务局 （ NTIS ) 负责编印，或二者共同 
编印。除了纸质的外，政府印务局出版的《目录月刊》还可以通 
过电脑搜索。《冃录月刊》指明了政府印务局的最新出版品。 
全闺技术情报服务局的数据库也吋以在线搜索。当前存在的 
一个问题是•.许多政府机构幵始把它们的文件直接在网上公 
布，而不是将这些文件的 S 录编入政府印务局或全国技术情报 
服务局的索引中。 

对于第一次进人政府文件“迷宫”的新手来说，《美国政府 
出版指南》是最好的“出发点”。该指南不仅描述 f 文件本身， 
也对政府文件的出版机构作了描述。 

除联邦政府的文件外，较大的研究图书馆、州政府和地方 
政府发行的文件也是可用的。 

前睹性研免记录册 

研究记 录册是关注于某一共同特征的研究数据库，比如主 
题、资金来源或设计（见 Dickerson ，1994，对研究记录册的全面 
介绍）。 前瞻 性研究 i 己录册比较独特，因为它不仅试图包括已 
经完成的研究，而且还包括在计划层面或仍在进行中的研究。 
例如，前瞻件研究记录册可能包括了最近已获得政府资金支持 
的研究信息，或者最近获得批准的“以人为主题”的研究信息。 

根据搜索者的观点，确定一个与研究有关的研究记录册， 
它可以提供正在进行的和未发表的研究，并且这些研究没有经 
过个人联系的筛选。与恳请信及网络资源得到的信息相比，通 
过这类方法得到的信息和前者没什么不同。但研究记录册更 
关注内容，比其他渠道更易使用。研究记录册记录的内容可能 
也更加全面、详尽。 
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显然，对文献搜索者而言，记录册的全面性是最重要的。 
因此，对搜索者而言，确定以下两个方面至关重要 ：（a ) 记录册 
存在的时间， （b) 如何将研究囊括进记录册。 

目前，较之社会科学领域，研究记录册在医学领域的应用 
更加普遍。然而，一些政府人士提供的参考书目也被用作研究 
记录册。例如，通过一个相对简单的 N 上搜索，就町以发现目 
前美国教育部拨款的研究津贴项目清单。通过这个清单可以 
发现有关家庭作业的研究，然后我就可以联系其中的任何一位 
项目资助者，询问他们是否取得了某些研究成果。 

参考教接4 

最后，对研究综述者而言，参考数据库可能是最丰富的信 
息来源。这些索引和摘要服务是由号社会科学领域有关的个 
人、公共组织所维系。索引或摘要服务主要关注了一些特定类 
型的文献（如期刊文章和学位论文）或主题领域，这些工作的 
范围主要是大量精确的文献输出。在这样的系统中，主要输出 
的文献多数是作为参考的。当然，全文数据库正变得越来越普 
遍。在不久的将来，它会成为一种使用标准。 

参考数据库虽然是极好的研究来源，但仍然存在着一定的 
局限性。第一，当完成了一项研究并 a 当它出现在系统中时， 
两者之间存在着一个长时间的滞后性。 一 项研究，首先要得详 
细写作、提交以及被主要的文献输出所接受，然后确定编入参 
考数据库。第二，以主题或学科为限制依据的话，对系统里包 
含的信息，每个数据库都有一些限制。例如，心理学文摘数据 
库 （ PsycINFO ) 就只包括与心理学有关的期刊（尽管 psycINFO 
对心理学方面的描述非常全 面）， 而教育资源信息中心 （ ERIC) 
对教育方面期刊的覆盖则非常全面。因此，如果一位综述者对 
交叉学科的主题感兴趣，那他就需要进人几个参考数据库进行 
査询。第三，一些参考数据库只涵盖了发表的研究或者是其他 
没有发表的研究（如学位论文文摘）。 

第四，仅仅依赖于参考数据库进行搜索还不够全面、彻底， 
往往存在一定的局限性，这不是因为它们包含的内容怎样，而 
在 T 搜索者如何搜索。即使一个数据库里存在和某一主题相 
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关的非常完整的期刊资源，搜索者也想从中找到与之相关的每 
篇文章，但他们不一定能以某种方式完整地描述出他们所要搜 
索的主题。这种搜索没有能力“收回”所有想要的信息。就像 
在网络上搜索一样，搜索者必须将与研究有关的检索项具体 
化，这样才能够进入数据库。一旦研究者忽视或省略他们感兴 
趣的、可以应用到实际搜索中的检索项目，就很有可能错过可 
使用的文章。 

家庭作业研究的搜索多数使用的是辅助渠道。对心理学 
文摘数据库和教育资源信息中心的研$进行搜索之后，尽管我 
知道没有参考书目或研究记录册专门讨论家庭作业问题，但我 
还是搜索了《美国政府印制的目录月刊》和全国技术情报服务 
局的数据库。这两个参考数据库里有许多描述家庭作业研究 
的文献，这些相关文献还会提供非常好的背景信息。政府数据 
库提供了近48种文件，而这些文献是参考数据库无法提供的。 

引文索引 

引文索引是参考数据库的一种独特形式。它可以确定最 
近发表的所有文章并对其进行分类，这呰新发表的文章参考 
(或引用） r 早先相 同的出版物。通过这种方式，早期的出版物 
成为.当前文章的索引项。同使用研究报告参考目录相比，引文 
索引使用的是降序方式 （ descendency approach ) 来导找文章的 

后续者，而前者查询的是文章的首创者。三大引文索引分别是 
社会科学引文索引 （ SSC 1) 、科学引文索引 （ SCI ) 、艺术和人文 

引 文索弓 1( the Arts and Humanities Citation Index ) 。这三大引文 

索引均由美国科学信息研究所编制。 

举个例子，我们会很清楚地了解引文搜索策略。在家庭作 
业研究的搜索之初，我可能已经知道一个電要的、著名的研究， 
而且，这项研究很有可能会被后来大多数与家庭作业主题相关 
的研究所引用。了解了这点之后，就可以进入引文索引查找参 
考文献。索引会列出一定时期内包含的所有引用过早期研究 
的全部文章。这些文章会按照作者、来源、发表 H 期列出。然 
后，我查看了近期的文章，看它们是否包含了能够在我的综述 
中使用的结论。我可能会不断使用这一策略获取所需的一些 
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不同重要的文章。 

因为无法确定真正地中心出版物，这种策略在家庭作业研 
究中没有使用，但是，使用 SSCI 搜索对强奸态度的个体差异的 
研究，取得了良好效果 c 在研究中，确定了五种对强奸态度的 
测量，并且出现的相关文章都被存到了引文索引中。综述者发 
现了 545个引用了这五种测暈的研究并分析了它们的摘要，用 
来判断这些研究是否与个体差异的研究有关。 

尽管引文索引限制奄看发表研究、出版期刊和书籍的参考 
文献。但是，引文索引覆盖的研究类别还是非常详尽的。同 
时，近期的出版物不会马上出现在引文索引中，因为将这興岀 
版物分类编人引文索引中需要一定的时间。 


使用参考数据库检索 


这一部分详细介绍了如何进行参考数据库的搜索。其实， 
对于社会科学家们如何使用图书馆，已经介绍了很多方法和指 
南。其中最有名的是《图书馆使用：心理学手册》一书，它是由 
美国心理学协会 （Reed & Baxter ，1992) 主办。还有《教育者信 
息高速公路》 （ Wehmeyen *，1995) —书。这些书深人探讨了在随 
后章节中介绍的文献检索问题。同时，零售商和参考数据库出 
版商提供了现成的、详细的使用说明。 

各大研究图书馆都提供可信的参考数据库。图书馆参考 
咨询员会帮助初次使用者更准确地找到与他们研究有关的最 
合适的数据库。同时，他们也会提供可能需要的、进人数据库 
的指导性逑议。图书馆里参考数据库的媒介是多样的。许多 
数据库不止有一种媒介。 

最古老的媒介是印刷品。研究图书馆里有成排成行的论 
文和缩微胶片数据库。搜索者必须进入图书馆才能使用这些 
论文和缩微胶片数据库。同时，搜索者通过使用印刷索引进行 
搜索，而不是直接进人印刷数据库。这些印刷索引可以指出， 
在文献卷册或胶片文件中，哪些信息会引起搜索者的兴趣。对 
于许多参考数据库而言，印刷索引正逐渐的退出，印刷的卷册 
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也是如此。 

参考数据库也有光盘 （ CD - ROM ) 格式。在这种形式下，电 
脑光盘可以用来存 r 和检索索引、参考书目、摘要其至是全文 
文献。光盘技术逐渐用来存贮更小、更专业的参考数据库。人 
学和其他研究机构可以购买光盘数据痄的“使用权”。参考数 
据库供应商会定期的，每月、每季度、每半年更新电脑盘。压缩 
盘通常固定于某一电脑工作室，但是这些盘可以在木地电脑的 
网络中使用。值得一提的是，部分图书馆参考数据包含一个 
“电脑储备库”，存储着不冋的参考数据库。 

最后，参考•数据库也可以通过拨打商务服务电话在线使 
用，或者通过网络直接使用。如果计算机用户拥有调制解凋 
器，也愿意支付当地电话、系统进人和所耗时间的费用，他们就 
可以享用所有的这些服务。一些在线服务以统一的费用岀租 
给了一些网点，比如说大学，在公寓里使用是免费的。研究机 
构让这些服务面向申请者（和学生）使用，服务通常是免费的。 
申请者和学牛可以在家里、办公宰或教室凭借必要的软件进人 
参考数据库。因此，拥有了在线服务，搜索者不需要亲 自去阁 
书馆进人参考数据库，但是，如果数据库中没有完整文本的话， 
他们还是不得不去图书馆查找所需要的文献。在线参考数据 
库也是定期更新的，有时比光盘参考数据库更新的更加频繁。 

对搜索者而言，如何操作电脑进入光盘或在线参考数据 
库，没有必要了解更多。大多数商务服务都有步骤式、菜单式 
的操作指示，这些操作指示让搜索变得更加容易使用。研究图 
tJ 馆雇佣了受过专业训练的人员来指导搜索者搜索或帮助他 
们 r 解搜索过程。特别是当搜索者告诉图书馆管理员感兴趣 
的话题，甚至是跟研究有关的间组 、间义 间组和相关词冬 I 书 
馆管理员和搜索者便可以在词库 （ 无论是打印还是在网上）中 
浏览。这样，就可以找出研究者可能没有考虑过的同组。图书 
馆管理员也会要求搜索者提供他们想检索的文献的实例。这 
些都有益于检索到所需的资料。 

针对家庭作业研究进行参考数据库的在线搜索。皆先，用 
鼠标箭头点击电脑屏幕上适当的图标。这一图标与我们大学 
提供的在线搜索服务软件包相连。电脑会自动联系到在线服 
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务。这样会马上得知最新更新的参考数据库。再点击下图标， 
就可以得到所有数据库的清宇.。每个数据库在明显的地方都 
简申介绍了其基本内容，既包括所涉及的学科，又包括收录的 
曰期。第三次点击下，开始检索数据库，这样就开始搜索了。 

参考教据4素例 

接下来，我们对一些参考数据库的服务做一简单介绍。这 
里我所选的都是在社会科学和行为科学领域使用最频繁的数 
据库。 

心理学文摘数据库 

在行为科学领域中，搜索者最常使用是能提供索引和摘要 
服务的心理学文摘数据库 （ PsycINFO )。 这个数据库里储存的 
记录超过100 多'万条 。这些记录涉及与心理学及相关领域有 
关的各种文献。事实上， PsycINFO 包括一系列的产品，有印刷 
品、光盘和在线媒介。这些产品的特征总结在表 3. 4里。关于 
PsycINFO 的详细信息还可以通过其主页 http :// www . apa.org 

进行查询。 

从1967年至今， PsycINFO 都是值得我们信赖的在线搜索 
资源。有时，有些搜索者可能对老一点的文献感兴趣，这些文 
献可以在印制的《心理学文摘》中检索到。 

然而，就近期的资料而言，汁算机化的数据库更新的更快 
一些。因为它可以直接将文章索引输进电脑存贮，然后再印刷 
成册。 

继续以家庭作业研究为例， 一 旦通过在线服务进入 
PsycINFO 数据库，屏幕上就会出现一个框，当我输人搜索术 
语，柱型的分类栏也会出现在屏幕上，用来显示搜索的统计结 
果。当我在输入框输入“家庭作业”时，屏幕上会跳出另外一个 
框告诉我们“家庭作业”是个有效的主题标题。然后，电脑会询 
问我是否想看有关“家庭作业”这一术语的所有记录，还是仅 
看一些把家庭作业认为是某些文章的关注点或要点的记录。 
为 f 确定这样的选择对我的研究有怎样的影响，我输入“家庭 
作业”，首先具体列出了所有的记录。我发现有关家庭作业术 



期刊： 1927 年至今 

1974 年至今 
书籍:1987年至今 


范围 期刊 

技术报告 
学位论文 
书的章节 
书籍 

有效日期 】967年至今 


可用性 商务在线服务： 

数据之星奥维 
德在线 
健康之门 
租借机构 


订阅： 从 APA 订阅 

白羊座系统 
公司 

EBSCO 出版社 

国家信息服务 
公司 （ NISC ) 

奥维德技术 
银盘信息 


更新频率 月刊 季刊 月刊 

语言 所有语言 期刊： 仅有英文 

所有语言 （1988 年至今) 

书的章节和 书籍： 

英文 


形式 


在线或机构出租 


光盘（压缩盘〉 


印刷体 


注：获 得更多的信息，请联系 PsycINFO 使用服务丨或202-336-5650。 
a: 书箱章节和记录只适用于--些在线系统 n 

语的 记录有148条（显示为第一行）。接着，再次输人家庭作 
业，要求仅将家庭作业作为主搜索词搜索的记录有125条（显 
示为第二行）。我决定仅使用关注家庭作业的记录继续进行 
搜索。 

接下来，在输人框输入“学校”，重叠框立即显示并告诉我 
这也是一个主题标题。输人框还会告诉我关于该词的其他信 
息，包括作为主题标题输入词库的日期以及我可能想在搜索中 
使用的所建议的相关术语，如“大学”和“高等教育”。这时，计 


PsyslNKO PsycLIT 心理学文摘 


n 3 m 文献检索阶段 

3.4 PsyslNFO 机构产品的比较 


告节 

敗章 

刊术的籍 
期技书书 


节 

章 

刊的籍 

期书书 
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算机会要求我决定是否以学校为主题标题、指定的数据库供应 
商和出现在记录任何一处文本中的词或文字进行搜索。我选 
择将学校作为文本中的词来进行搜索。一会儿，在分类栏第三 
行出现了 107 355条包括了“学校”这个词的记录。 

随后，在输人框输人指令“2 not 3”，从而可以计算出以“家 
庭作业”为主要关注点的记录数，但是这些记录不含“学校”这 
个词。第四行显示了 118条符合要求的记录。在屏幕的底端 
有许多选项，其中有一个“浏览图标”，点击这个图标，与我搜索 
相关的文献会立即出现在第四行。首先列出的是每个记录的 
书目信息和机构信息，如有必要，可以改变一下表示方式，来归 
纳文献摘要的信息。接着，我就可以滚动选择这些强调的记录 
的0录，标出想要保存和打印的记录。 

当我选择打印选项时，计算机先会询问在强调的记录中选 
择怎样的信息（在数据库中称为“领域”）和版式来打印。选择 
这些选项之后，打印机就会把搜索结果打印出来。整个流程所 
花费的时间不超过半个小时。 

教育资源信息中心 

教育资源信息屮心（简称 EK 1 C ) 里面有大量的信息，这些 
信息既适用于从事于教育领域或学习过程中的工作者，乂适用 
于该领域的研究者。 EKIC 系统主要通过16个资料交换中心 
来搜集、筛选、组织和传播文献。每个资料交换中心主要关注 
了教育的某一方面（如成人教育、阅读和科学教育）。 ERIC 由 

美国教育部创办和维系。它里面包括的资料甚至可以追溯到 
1966年。 

ERIC 出版了两本印刷指南介绍其内容。第一本指南是 

《最新教育刊物论文索引 》 （Index to Journals in Educa - 

简称 CUE )。 它提供了一 份目录 ，主要涵盖了教育及其相 
关的期刊文献。第二本指南是《教育资源 》 （Resources in Edu - 
cation ， 简称 RIE )。 它提供了已完成研究报告的摘要和其他有 
教#意义的文献。这两本指南的 H 录都是按照主题、作者、机 
构来源、出版类别 （ 如书籍和会议文献）及文献的其他特点编 
入索引的。 
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在 ERIC 系统中，存于 RIE 中的多数文献都可以完整检索 
到。所有存储于缩微胶片上的文献都可以在主要的研究图书 
馆中找到。将缩微胶片幻灯片放人阅读器中，我们就可看到完 
整大小的文献，然后，影印放大了的缩微胶片，就可以得到该文 
献的复制本。从1996年1月至今， ERIC 的文献都有电子版， 
或者搜索者可以联系 ERIC 文献复制服务中心获得复制本。 

进入 CIJE 的方法跟进入 RIE 的一样，但是需要分别来搜 
索这两本指南。在 C 1 JE 里，确定相关的研究之后，搜索者必须 
找到包含全部文献的期刊。 ERIC 索引同样可以通过光盘和在 
线媒介进行检索。与印制目录相比，在综合和 CUE 这两 
个数据库，进行相同的期刊和缩微胶片搜索时，这些方法被认 
为使用起来要容易得多、快得多。搜索者可以登录网站 

http :// www . aspensys . com / eric 2/ welcom . html ， 广解所有的 

ERIC 信息服务的基本信息。 

我打印出 PsycINFO 搜索的结果之后，又使用 ERIC 数据库 
进行了一项相似的搜索。这一次，我会增加一个步骤——使用 
显示在屏幕底端的“限制按钮”。例如，在 ERIC 数据库中，将 
家庭作业作为关键词进行搜索，会得到460个结果。然后，点 
击“限制按钮”，屏幕上就会出现一系列关于设置限制的选项。 
我可以把搜索范围仅限 T R 〖 E 或 CIJE 记录中，也可以限制为 
一 种具体的语言、最近更新的记录、具体的教會程度、明确的出 
版年限、出版类别或者是详尽的 EKIC 资料交换中心屮的记录。 
我把搜索范围的受教育程度限制在大学水平以下。通过使用 
这项命令，搜索的结果减少到322个。 

表 3. 5展示的是在我的办公室电脑上打印的搜索到的一 
个 ERIC 文献的记录。 

大多数记录领域本身就非常清楚。记录的登记编号告 i 斥 
我该文献在 ERIC 中的位置。例如，当地信息则会告诉我可以 
在密苏里大学的健康科学图书馆里找到《学习障碍杂志》。 


国际学位论文摘要 

虽然许多参考数据库中都包含了学位论文摘要，但《国际 

学位论文摘要 》 （Dissertation Abstracts International ，简称 DAI ) 则 
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专门关注了这种类别的文献。不论是印刷版本还是被称为《在 
线学位论文摘要 》 （Abstracts On / iVie ， 简称 DAO ) 的电 

子版本，都有可追溯到1861年的文献记录。电子版中保存着 
从1962年至今的硕士论文摘要。 DAI 和 DAO 数据库，涉及的 

范围非常广泛，不管是什么学科的论文摘要都包含在里面。 

表 3. 5 ERIC 系统中文献记录的一份文件案例 

Example of a Document Record in the ERIC System 

<i> 

Accession Number 
EJ491145 

Authors 

Cooper. Harris. Nye, Barbara. 

Title 

Homework for Students With Learning Disabilities: The Implications of Research 
for Policy and Practice. 

Source 

Journal of Learning Disabilities. v27 n8 p470-79 Oct 1994. 

Local Messages 

Owned by MU HSL. 

ERIC Subject Headings 

Assignments • Parent Participation 

Elementary Secondary Education Parent School Relationship 
•Homework Parent Student Relationship 

♦Learning Disabilities ^Teacher Role 

Models Teaching Methods 

Abstract 

A review of the literature on effects of homework for students with and without 
disabilities offers a homework process model t and suggests that homework policies 
and practices for students with learning disabilities should emphasize: simple, short 
assignments; careful monitoring by and prominent rewards from teachers; and 
parental involvement to provide structure, conducive environments, and immediate 
rewards. (Author/DB) 

Publication Type 

JOURNAL ARTICLES INFORMATION ANALYSES (Statc-of-thc-Art Papers. 
Research Summaries, Reviews of the Literature on a Topic). VIEWPOINTS 
(Opinion Papers, Position Papers f Essays, etc ). 

Document Delivery 
Available from: UMI. 

ISSN 

0022-2194 

Limgu 篇 gc 

English 

Clearinghouse Code 

Handicapped and Gifted Children. 

Entry Month 

9502 
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DAI 和 DAO 里面的资料依据文章的作者、题目及摘要的关 
键词编入索引中。编制索引的人不会在每篇论文里都注明描 
述性术语，相反 ，一 篇学位论文会出现在 DAI 印制的主题词索 
引中，主要是因为该论文题目中包含着关键词。同时，若论文 
是在大学期间完成，大多数图书馆都会保存这些论文的纸质本 
和缩微胶卷的复制本。因此，若是发现了相关的论文摘要，通 
常可以通过馆际互借业务联系到存有该论文的大学，以获得完 
整论文的复制本。或者，搜索者可以通过美国密歇根大学安娜 
堡分校的国际大学微缩胶卷公司 （ UMI ) 购买复制本。（与 UMI 
公司签订协议的大学不会通过馆际互借向外借阅学位论文） 

虽然 DAI 和 DAO 涉及的范围特别广，但在搜索方面可能 
还会有一些限制。例如，当我们开始在 DAO 中搜索以“家庭作 
业”为 关键词的文献记录，会发现837个结果。但是， DAO 允 
许搜索者将范围缩小到某一文件类型上（只是博士论文或硕士 
论文），或是那些有摘要的文献记录（相对丁•仅有一个题目的 
记录），或是数据库中最近更新的文献，或是缩小到某一两种语 
言，或是具体年份的文献。因而，.当我把搜索范围限制到英语 
记录时，就少了 7个记录。当我继续输入“非中等教育之后 
(not postsecondary ) ”和“不是大学”的指令时，相关的文献数量 
只有689个。最后，当我们把搜索限定到1966年或以后出版 
的博士论文上时，还剩675个 i 己录。然后，浏览这些记录的题 

目和摘要，将我感兴趣的文献标上记号并打印出来，就像我使 
用 PsycINFO 和 ERIC 搜索的操作一样。 


社会科学引文索引 

就引文索引的特点而言，社会科学引文索引（简称 SSCI) 
最为显著的特点是涉及社会科学范围广泛。 SSCI 从超过 1 500 
多种期刊中检索信息，而这些期刊涉及 50 个不同的社会科学 
学科。 SSCI 还选择性地收录了将近 6 _种其他期刊，这些期 
刊或是与社会科学有关，或无关。这样， SSCI 每年搜集的新的 
期刊文章就超过 13 万篇。就印制的文献而言， SSCI nj* 以追溯 
到 1972 年，而光盘版本的文 献可以 追溯到 1981 年。 

SSCI 中同样也包含主题索引，也就是说，通过文章的关键 
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词来检索文献。 SSCI 的主题搜索能通过搜索文章题目中的任 
何一个词来实现。主题搜索可以具体到只包含某一特定文献 
的种类，如期刊文献或者是书评。 

要使用 SSCI 中的引文索引部分，搜索者必须提供与其引 
文历史有关的参考文献。使用引文索引的一个问 题是： 期刊文 
章内包含的书冃信息里有许多错误 （Boyce & Banning, 1979 ) c 

因此，一定要查明大多数的引文所在。对于搜索者而言，有必 
要检索引用文献的第一作者的信息，而不仅仅是感兴趣的具体 
文章的信息。然后，搜索者吋以仔细检査这些文献，筛选出没 
有准确列出来的引文信息。 

就近来的家庭作业搜索而言，我决定到图书馆使用印制的 
SSCI 来确定引用了我的家庭作业研究综述的期刊文章的作者。 
然后我检索了这些文章，看这些作者描述家庭作业的研究在综 
述出现之前是否已经发表。这个综述在1989年就以书籍的形 
式出版，同时以一个比较简短的文章形式发表在《教育领导》 
上。为了弄清谁引用了这些文献信息，从1990年幵始，我在 
SSCI 每年收录的文章屮査找 “Cooper H ”。 

在1995年的文献中，包含 H . Cooper 的引文记录有两列。 
表 3.6 列出了这些记录。在印刷版本的 SSCI 中，若文献被引 
用，就用粗体字表现出来。因此，仔细浏览 “Cooper H” 下面的 
项目，顺着列表往下看，直到 “89 Educ Leadership 4785 ” 这 - » • 
列，这一信息告沂我， H . Cooper ， 该作者的文章出现在1989年 
第 4 7卷的《教育领导》里面，从第85页开始。在该信息下面列 
举的是1995年引用这篇资料的5篇文章。接下来的检索项是 
关于家庭作业这本书的。这本书被引用了三次。显然，一位作 
者既可以同时引用书籍也可以引用期刊。同时，搜索者需要注 
意的是，对于一些被引用的文献而言，该文献另外的引文也可 
以在《科学引文索引》屮发现。每一列最右边的代码指的是每 
种资源检索项的类型。“ B” 代表的是书评， “R” 代表的是述评， 
“ N ” 代表的是技术说明，等等。 
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表 3.6 1995年间 SSC 1 检索条目的例子 

Example of Social Science Citation Index Entries During 1995 



VOL PG 

YR 

f nriDlTD u « 




46 THOSE PRESENT OFF1CI 



WHITE GM 

PUBLCULTUR 

7 529 

95 

SVS AFR MED J 


33 349 


(S7S AFR MED J 


41 902 


LOUW J 

SAFR i PSY 

25 99 

95 R 

7V REV EDUC RES 

4, 3«¥ 


STASSEN MLA 

REV HIGH ED 

18 361 

95 

83 PYGMALION GROWS 



BABAD E 

iEDUC PSYC 

87 361 

95 

83 PYGMALION GROWS STUD 



PAPAIOANA 

J SPORT EXE 

17 18 

95 

83 TEACHER STUDENT PERC 



GOTTFRED.DC 

J EDUC RES 

88 155 

95 

S4 RES MOTIVATION ED 

pM9 


URDANTC 

REV EDUC RE 

<S5 213 

95 R 

84 RES MOTIVATION ED 

1 2Wf 


FONTAINE AM 

EUR J PSY E 

9 225 

94 

85 J RES DEV EDUC 

18 25 


TATAR M 

BR J SCX ： ED 

16 93 

95 

M3 PERS SOC PSYCHOL 

55 937 


HART AJ 

J PERS SOC 

68 109 

95 

89 EDUC LEADERSHIP 

47 8S 


BAUCH PA 

EDUC EVAL P 

17 1 

95 

GAJRIA M 

J LEARN Dl 

2H 291 

95 

GEARY DC 

AM PSYCHOL 

50 24 

95 R 

HOOVERDE KV 

ELEM SCH i 

95 435 

95 

SALEND SJ 

REM SPEC ED 

J6 271 

V5 

8V HOMEWORK 




HOOVERDE KV 

ELEM SCH J 

95 435 

95 

JAYANTHI m 

REM SPEC ED 

16 102 

95 

PRESSLEY M 

EDUC PSYCH 

30 207 

95 


VOL PG YR 


9 365 95 


89 INTEGRATING RES GUID 
BISHOPCL.C COMP HUM BE 11 241 95 

90 RES METHODS PERSONAL 

TANG SH APPL COGN P 9 365 S 

9) COCHLEAR IMPLANTS PR 

<ANON) I BR ASSNT 19 135 S 

91 J PERS 5V 1IW 

ROMAN RJ J PERSONAL 63 M3 S 

93 WALL STREET J 0316 S 

SCHALOCK RL J MENT HEAL 22 358 S 

94 HDB RES SYNTHESIS 
WIELAND D EVAL HEALTH IH 252 S 

94 HD RES SYNTHESIS 
SEE SCI FOR6 ADDITIONAL CITATIONS 


19 U5 

sv \m 

63 JI3 


95 


95 


95 


95 


BALAS EA 


COOPHR H 
EAGLY AH 
FXKIS H 
GLASS GV 
LEPPER MR 


J AM MED IN 
MED CARE 
AM PSYCHOL 

•鳙 

ARCH G PSYC 
CONT PSYCHO 
APPL COGN P 


2 307 V5 
33 687 95 
50 111 95 N 

50 145 95 R 
52 735 95 R 
40 736 95 B 
9 411 95 


AM PSYCHOL 


BURT DB PSYCHOL B 117 285 

COLLIN CA SOC BEH PER 22 355 

EAGLY AH AM PSYCHOL 50 145 

CLADSTON TR J ABN C PSY 23 597 

ZHANG ) ADOLESCENCE 29 885 

79 J EDUC PSYCHOL 71 375 

LINEMAN SL J SPEC EDUC 29 295 

841 NOCTURNAL MALAGASY pl91 

RUMBAUGH D SOCIAL RES 62 711 

PSYCHOL BULL 87 442 

SEE SCI FOR 1 ADDITIONAL CITATI0 
BUSHMAN BI PSYCHOL B 117 530 

COOPER H AM PSYCHOL 50 111 

FAITH MS J COUN PSYC 42 390 

PRE1SS RW EVAL HEALTH 18 315 


67 312 
63 231 
47 7 

37 131 
117 285 

22 355 
50 145 

23 597 


95 
95 
93 
95 
95 
95 R 


48 422 95 

33 202 95 

27 470 

28 291 93 
16 102 96 
16 271 95 

3 190 96 

Pi 

16 223 95 


PREfSS RW EVAL HEALTH 18 315 95 

SCHULTZ PW J ENV1R PSY 15 103 95 

SHAD1SH WR J MAR FAM T 2) 345 93 

SLAVIN RE J CLIN EPID 48 9 95 

VEVEA JL PSYCHOMETRI 60 419 95 

WEISZJR PSYCHOL B 117 45() 95 

94 IIDB RSE SYNTHESIS 
YEATON WH EVAL HEALTH 18 283 95 

94 HOUSE CAT 

SHORT K READ TEACH 48 422 95 

V4 HDB RES SYNTHESIS pS7 

HASSELBLV MED CARE 33 202 95 
94 J LEARN DISAB1L 27 470 

GAJRIA M J LEARN Dl 28 291 95 

JAYANTHf M REM SPEC ED 16 102 % 

SALENG Si REM SPEC ED 16 271 95 

SODERLUN.i J E BEN DIS 3 190 96 

94 WALL STREET J 80)4 pi 

RABEGA DEVIANT BEH 16 223 95 

94 WALL ST J 1ZH2A 1 

GRANT JM INDIANA LAW 70 1353 95 

94 WALLST J _2A 2 

CHARNOVI.S CORNELL I L 27 489 94 

95 AM PSYCHOL 50 111 

L1PSEY MW AM PSYCHOL 50 113 95 

COOPER HA - 

S9 INTEGRATING RES 

WHITLEY BE PSYCHOL B 117 146 »5 

COOPER HC - 

89 INTEGRATING RES GUID 

PETROSIN.AJ EVAL REV 19 274 95 

COOPER HF - 

92 MATS BRIEF MAY p27 

RABERTB AUSSEN POLI 46 71 95 

COOPER HM - 

75 J EDUC PSYCHOL 67 312 

COOPER H J EXP EDUC 63 231 95 

HARRISON L QUEST 47 7 95 

7, J PERS SOC PSYCHOL 37 131 


27 489 94 

SO 111 

50 113 95 N 


17 146 95 K 


19 274 95 


PJ7 

46 71 95 


95 

95 


9SR 

94 

9)R 

95 
94 


J SPEC EDUC 29 295 95 
MALAGASY p\9\ 

SOCIAL RES 62 711 W 

丄 87 442 

ADDITIONAL CITATION 
PSYCHOL B 1 17 530 93 
AM PSYCHOL 50 111 95 N 
J COUN PSYC 42 390 95 R 
EVAL HEALTH 18 315 95 
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Continued 


VOLPG YR 


VOL PC YR 


4EIXJC 

CHOP 


SlftXVEDUCRES 

D INTJSCIE 

DIPABK) RP PHYS THER 
miss RW EVAL HEALTH 

O rYGMALION GROWS STUD 
HAKTRD COMMON 

VIANTARC DEV PSY 彳 

M SUM SCHOOL J 
Wmsm.RS AM EDUC RES 

MDfllGtATIVE RES REV 
BURTDB PSYCHOL fi 

HBBSACK£.M COUNS PSYCH 
OtOUMCETW J SCH HEALT 
SLAVIN RE J CUN EPID 
WBISSINO.E LEISURE SCI 

•MNTBGKATIVE RES REV 

PSYCHIAT AN 

CHOL 

OX REV EDUC 
WILD KP 2 ENTWICK P 


奶 ■麗 " 

l«ANC8SA 

V0UCP8YC 

ILATCHFO.P 


• ■OMKWMK 

SQDOtLUNJ 

• MVCKAT1N 


52 291 

17 695 
75 865 

18 315 


44 140 

7 295 
•5 77 
32 121 


17 285 

23 611 

65 33 
4% 9 

17 141 
v2 

25 15 

24 79 

20 411 
27 78 


95 

95 

95 


95 

95 


95 


95 R 
95 

95 N 

95 

95 


95 


94 

95 


IEBEHD1S 3 150 95 

• MVGKAT1NG RES GUID 
戲 SCI FOR 1 ADDITIONAL CITATION 

BUSHMAN B1 PSYCHOL B 117 5J0 95 

BUSSEItT J SCH PSYCH 33 269 95 

CBOUCHGI ANN TOURISM 22 103 95 

OOKEYKM RERS IND1V 19 345 95 R 

RUOHBSC AM J MENT R 99 623 95 R 


10HNS0N BT 
KKYWANIOML 
LEFRANCOR 
LEPPER MR 
ROSENTHA.R 


SMITH MC 


J APPL PSYC 
NURS RES 
CAN J AGING 
APPL COON P 
PSYCHOL B 
PSYCHOL SCI 
CANCER NURS 


W) 94 95 
43 133 94 
14 52 95 
9 41! 95 
118 183 95 
5 329 94 
18 167 95 


89 INTEGRATIVE RES REV 
GANONC LH FAM R6LAT 
89 INTEGRATING RES GUID 
SWANSON iM ADV CL CH F 


44 501 95 
yl 

17 265 95 R 


91 PERS SOC PSYCHOL B 17 245 

WHITC Ml AM] MENTR 100 293 95 

93 J COMP NEU 鼸 OL 32t 313 

SEE SCI FOR 8 ADDITIONAL CITATIONS 
BENSHLOM R BEHAV GENET 25 239 95 

93 NATURE Ml IM 

SEE SCI FOR 12 ADDITIONAL CITATIONS 
BARTON RA PHi T ROY B 3«» 95 
BENSHLOMR BEHAV GENET 25 239 95 

94 HDS RBS SYNTHESIS 

SEE SCI FOR 2 ADDITIONAL CITATIONS 
HASSELBL.V PSYCHOL B !!7 167 95 

COOPER HSF - 

S7 LIFT OFP 

NICHOLAS JM AVIAT SP EN 66 63 95 R 



: Rcphoted with permission of the Institute for Scientific Information 


关于 SSCl 的记录还有两件非常有趣的事情。第一，在表 
3.6 的第二列中，有一些记录跟 “Cooper HM ” 有关。其实， “ M ” 
是我中间名首字母缩写，我早期发表的刊物都用 Cooper HM 署 
名。尽管引用家庭作业书籍和文章的作者没有使用我中间名 
的首字母缩写，但是表 3. 6里还是在引文目录中出现了有我中 
间名的首字母缩写的作者名。另一方面 ， “Cooper HA ” 和 
“ Cooper HC ”都各自有参考文献，这些都是“ Cooper HM ”著作 

的错误引文索引（事实 . t ， 这些都是你目前阅读书籍的参考文 
献）。其次，因为我个人非常熟悉一位叫做 H . M . Cooper 作者 
的著作，显然，至少另一位也叫做 H . M . Cooper 的作者在社会科 
学期刊中发表了文章。 

由于空间的限制，在社会科学中，仔细査阅成 " P 上万的文 
摘服务是不可能的。大多数的文摘服务可以使用在线电脑搜 
索。这些文摘服务的内容根据学科的不同而不同。例如在 
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ERIC 中有高度专业化的主题领域，比如老龄化 （ 老年学文献资 
料库， Ageiine ) 、精神性药物滥用（药物数据库， DRUG 11 NFO ) 及 

婚姻与家庭（家庭资源数据库， Family Resources Database )。 文 

摘服务信息可以从图书馆管理员那里得到，也可以在《参考工 
作导 论：第 一卷》 （ Katz ，1997) 中得到，或是在其他资源的《在线 
H 录数据库》中奄找到。 


讨算机拾余的局限性 

研究综述者不能过分强调计算机搜索的价值。通过计算 
机搜索，综述者可以以惊人的速度获得大 M 的相关资料。计算 
机搜索节省了大量时间，并且可以非常方便地将搜索结果进行 
硬拷 W ( hard copy )( 人们把从印刷机、打印机、复印机等得到的 
印件叫作硬 拷贝； 而把显示器等装置上面显示的图像、文字等 
叫作软拷贝）。这样的话，综述者就可以在方便时评佔搜索结 
果。 THW 为如此，与手工搜索相比而言，计算机搜索在同样的 
数据库中搜索的范 围更加 广泛。 

当然计算机搜索并非没有问题。特别是，如果专门使用计 

算机进行搜索，搜索者意外发现其他资料的可能件就大大减少 
了 （ Menzel ，1966 ； Stoan ，1982 ) 。 

然而，使用计算机搜索并没有妨碍搜索者去浏览期刊和图 
书馆书架上的图书。其实，在使用计算机搜索之前，浏览期刊 
和书籍是一个很好的选择。通过浏览，搜索者不仅可以增加计 
算机上的检索项，也可以确定需要打印出来的相关文章。若是 
没有这些相关文章的话，那一定是出什么差错了。 

确定文献检索的充分性 

在搜索中，对于使用哪些信息来源或使用多少信息来源这 
样的问题，还没有一个统一的答案。研究主题、搜索者研究的 
需要是确定搜索来源的主要因素。然而，作为一项规则，搜索 
者必须使用多重渠道，这些渠道包含了不同的准人和访问限 
制，主要是为了减少已纳入研究与未纳人研究之间的任何系统 
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差异。如果一位综述者通过有着类似限制的渠道发现了一些 
不同的研究，那么综述的总体结论应该吋以被使用不同限制渠 
道的综述者复制使用，从而可以与原始研究的来源互相补充, 
这一做法体现了科学标准的可复制性。 

辅助渠道，特别是参考数据库和研究记录册，如果可用的 
话，应该构成任何一个完整全面的文献搜索的中坚。这些资源 
几乎很可能包含着所有研究的信息。就像撒下了一张大网，这 
些资源里面有它们要说明的、受限制的但是所知的目标。 

很显然，就像我提到的，仅仅关注正式来源会产生一组代 
表多数发表的、统计显著性结果。经过同行评审，已出版的研 
究经历了非常严格的方法论评审过程，这些著作也许是高质量 
的作品。正如随之我要在第4章说明的，在综述里，出版的作 
品并不一定是高质量的研究。充满瑕疵的研究也经常印刷出 
来。有时，好的研究成果并不一定公开发表。 

在下面两种情况下出版的研究是合情合理的。首先，出版 
的研究通常包括大量的相关著作。在这种情况下，虽然出版的 
研究可能会过高佔计了关系董，但它可能会正确的识别这种关 
系的方向。这种建议的关系量能由发表偏倚或谨慎解释所调 
整。同时，足够多的假设检验案例包括了一个研究特征与研究 
结果共变的合理检验。 

其次，在文献中，包含了许多有多重检验的假设，这些假设 
并不是研究的主要关注点。例如，在研究设计和关于性別差异 
的假设检验报告中，虽然不是原始研究者的主要兴趣点，许多 
心理学和教育学的研究还是将性別作为一个变量使用。这种 
出版物中对显著性结果的偏颇可能不会超出原假设太多。因 
此，在众多文章中出现的假设只是作为研究者的次要兴趣。与 
研究荠的主要关注点相比，这种假设受到出版偏倚的影响程度 
可能要小得多。 

一般说来，综述者仅关注于出版的研究不是明智的方法。 
除此之外，即使他们在综述过程中决定使用出版的研究著作， 
也不应该仅把搜索范围限定在这上面。他们需要全面的了解 
文献资源，然后仔细选择综述里所要使用的文献资料，从而确 
定该领域研究的主要问题。 
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最后，从非正式渠道获得的信息并不能反映从潜在的来源 
收集的全部信息。但是，从非正式渠道获得的研究，町能是对 
正式渠道和辅助渠道获得的研究的一个补充，因为通过非正式 
渠道进行的研究更加新颖。因此，搜索者也应该进行非正式的 
搜索，但是需要仔细分析用此种方式检索到的信息在总体相关 
文献中所占的比重。如果所占比重大，那么这就是一个警告信 
号，说明在搜索结朿之前，搜索者应该通过正式渠道和辅助渠 
道获得信息。 


文献检索的效度问题 

在本章幵始，我提到了文献搜索有两个不同的目标，一是 
以往的研究，二是与主题领域相关的个体或群体研究。对研究 
综述者而言，说明这两个研究目标是十分必要的。但是，综述 
者 会问： （ a ) 检索到的研究和其他研究有何 区別； （ b ) 检索到研 
究中包含的个体或群体与所有感兴趣的个体或群体有何区別。 

这一章用了较大篇幅来回答第一个问题。综述者不 n 丁能 
检索到所有的研究，这里面包含一定的偶然因素。通过综述# 
检索渠道比较容易获得的研究不同于从来不可用的研究 。 W 
此，综述者砬该非常注意那些不可获取的研究所涉及的内容， 
同时还要注意这些研究与已经检索到的研究的区別。 

提到个体或者是 K 他基本分析单位。综述者从总体上比 
较感兴趣的就是将乐观的信息 引入讨 论。我们有很好的理由 
相信，与一个主题领域内个別的原始研究工作相比，研究综述 
N 冃标群休的关系更直接。总的文献可以包括关于不同时代、 
成人和儿童、不同 N 家与人 种和不同种族背景的研究。也包括 
在不同的检验条件下使用不间方法进行研究的义献。对于包 
含大 M 可重复使用的特定问题领域，综述者所使用的个別参考 
资料的数量可能接近于原始研究者目标群体的数: M 。 虽然我 
们可能会接受原始研究里设置的数量限制，但不需要默认研究 
综述的参考资料的数量。 

当然，我们必须铭记，虚无假设的偏倚和相互矛盾的研究 
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结果会影响到综述里对人群的有效抽样和对研究的抽样。在 
一定程度上，可检索到的研究的范围与分组人群要素有关。检 
索偏误将会限制符合标准的个体研究数量。 

文献搜索过程中对效度的第一个威胁 是：综 述里很可能并 
未囊括所有与该主题相关的研究。再者，为了确保在成本效益 
的限制范围内不存在明显的、可避免的偏倚，综述者应该使用 
尽可能多的信息渠道。 

研究检索过程中对效度的第二个威胁 是：检 索研究中的个 
体或群体并不能代表目标群体中所有的个体或要素。当然，原 
始研究者对研究单位的选择超出了研究综述者的控制范围。 
为 r 保证研究质量，综述者必须仔细描述研究中遗漏的样本和 
具有代表性的样本。 

保护政度 

1. 由于综述研究中不具代表性的样本会造成对效度的威 
胁，所以，最好的解决方法就是全面、广泛的搜索文献。 
尽管收益递减的法则在这里也适用，但是一个完整的文 
献搜索过程至少应该包括搜索参考数据库、精读相关的 
期刊、对已有原始研究和研究综述参考文献的分析，与 
积极的、对研究感兴趣的研究者的非正式联系。与其他 
综述者使用的相似，但可能不同的信息来源相比，搜索 
范围越全面，综述者就越自信会与他们得到相同的 
结论。 

2. 在综述者的原稿中，他们应该非常清楚研究过程，包括 
参考数据库里搜索的信息是哪一年的，采用的检索词是 
什么。如果没有这些信息，研究综述的读者们就没有办 
法比较这一特定综述结论的效度和包含在其他综述中 
的结论效度。 

3. 如果索引是有效的，综述者应该介绍可能出现的检索偏 
误。例如，许多研究综述都分析了发表的研究成果与未 
发表的研究成果之间是否存在着差异。 

4. 研究综述者应该总结在个别研究中使用的个体样本特 
征。伴随着对社会科学里具有抽样代表性的个体样本 
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的诸多讨论，许多综述者会发现，这一概括会给他们的 
研究综述带来意想不到的好处。 

练习 

1. 研究者可以通过具体的搜索术语、使用必要的指引文献 
搜索的布尔语法操作来界定一个主题领域。也可以选择少许 
年份，对参考数据库进行人工搜索和计算机搜索。同时，也可 
以在网络上进行平行搜索，并比较这些搜索的结果有什么不 
同？哪一种搜索更加合理、有效？ 

2. 就你所选的主题，选择你将用来搜索文献的渠道及使用 
序。描述搜索中每一步的优势、不足和成本效益。 
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第4章旨在描述和评估判断原始研究中方法论充分性的不同 
方法。本章也指出了在研究报告中检索信息时将会遇到的问题， 
还分析了在同一样本或研究中出现相同假设的多元检验时，如何 
识别独立假设检验。本章结尾总结讨论了数据评估阶段的效度 
问题。 


m 4 ^ 数据评估 阶段 & ) 


在科学研究中，数据评估阶段主要评估了研究中包括的单 
个数据点是否精确可信。不论数据点是否是被测变量的主要 
个体组成部分（如在原始研究情况下），还是研究的结果（如在 
综述性研究情况下），都要进行数据评估。数据评估要求研究 
者建立一定的标准来衡量数据搜集的方法是否恰当。在数据 
评佔过程中，研究者必须检验所有可能出现的偏误和非相关因 
素，因为这些都可能会影响到每个数据点。同时，研究者还要 
确定这些影响因素是否有效，以决定这个数据点是否应从研究 
中删除。 


社会科学研究中的评估数据 

原始研究和综述研究的相似性。 原始研究者和综述研究 
者通过分析取得的数据，找到了极值、记录的误差或建议的不 
可靠测 M 的其他指标。他们还对单个数据点进行了分析，观察 

其是否为统计离群点 （statistical outliers ) ( Barnett & Lewis , 
1984)。研究者希望发现最极端数据点 （ most extreme data 
points ) 的信度是否可信，或者是由于它们中充满了误差，或者 
是由于它们不是来自研究的目标群休。为此，研究者可以使用 
统计程序或惯例来比较最极端的数据点和总体样本分布。 

在研究综述中，对统计离群点的搜索包括相似的统计程 
序。综述者检查的是每一研究的关系大小或揭示的处理效应， 
而非个別数据点。综述者试图测定研究得出的最极端的研究 

结果 （most extreme study outcomes ) 与研究结果的总体分布是否 

大相径庭，因而需要考虑它的可靠性程度。 

举例来说，有时统计离群点的出现是 因为： 数据从数据记 
录单转录到计算机文件过程中出现的偏误造成的。原始研究 
者可能会观察到，“攻击性行为”里某一给定的个体分数使用 
的值不在测量范 围内。 比方说，当测量范围是从0到20,而在 
计算机文件中出现的一个数值是90。研究者可能就会返 M 杳 
看原始的数据记录单，原来是把09错记成了 90。同样，在研究 
综述中，研究综述者可能发现接受“强暴迷思”的20个相关系 
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数的平均数 r =0. 15。综述者也可能发现记录的一种相关系数 
为 r = 0. 90，这个数值好像太大了。通过检查编码单，发现实际 
数值是 r = 0. 09,然后把这个正确的数值输入计算机文件中。 
这个平均相关系数就需要重新计算了。 

原始研究和综述研究的差异性。在这两种类型的研究中， 
识别不可靠数据的方法是不 同的。 在原始研究中，一位参与者 
的回答有时被舍弃了，因为研究者有证据证明该参与者的反应 
是不适当的，或者他误解了回答的指令要求。如果在研究中有 
欺骗行为或其他形式的指示错误，个别数据就应该被舍弃，因 
为参与者不相信表面理由或推断出的隐藏假设。 

在综述研究中，除了记录误差外，研究方法的效度是决定 
某一数据是否使用的唯一判断标准。综述者要确定是否认真 
进行了每项研究，从而使兴趣假设的重要性清楚明白地显示出 
来，使人们相信研究结果。综述者或者根据是否包含此研究做 
出不连续的决策，或者根据这些研究的可信程度进行不同的衡 
量，做出连续的决策。本章主要讨论了判断一项研究的方法论 
质量的标准。 

研究的方法论质量应当成为判断研究结果受信任程度的 
主要决策标准，这一点，大多数社会科学家都表示认同。然而 
在实践中，综述者的倾向会对综述评估过程产生很大影响。因 
而，在某一研究领域，分析综述者预先持有观念的来源和影响 
是十分重要的。 


综述者的倾向 

在研究开始之前，几乎每一个原始研究者和综述研究者都 
对研究结果有所期望。在原始研究中，通过构建精巧的控制系 
统，方法论学家可以减少由于实验者期望效应中的“人为因 
素”给研究结果带来的影响。 

在综述研究中，防止出现期望偏差常常收效甚微。综述者 
通常对研究结果和研究资料的搜集、评估持十分谨慎的态度。 
这便导致了一种可能——对研究课题方法论的评估蒙上了评 
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估者倾向的色彩。以往，综述者的倾向对综述的影响很大，格 
拉斯 （ Glass ， 1976) 曾做出如下 评价： 

综合若干不一致结果研究的普通方法是 ：除了 一些研 

究之外，对研究设计或分析的不足吹毛求疵-经常保留 

的是他们或者是其学生、朋友的研究- 进而把一两个 

“可接受的”研究总结发展成原理性的理论认知。 （ P .4) 

马奥尼 （ Mahoney ，1977 ) 齊做过 一 项实验，专 I ' j 检验了在研 
究评估中综述者的倾向对研究产生的影响。他在《应用行为分 
析杂志》的客座编辑中进行抽样调査，要求他们对一些原稿进 
行评级。马奥尼发现，如果原稿的研究符合综述#对研究结果 
的预先倾向，那么有关这些研究的方法、讨论和所递交的原稿 
会更多地得到综述者的青睐。在一项相关研究中，洛德、罗斯 
和莱珀 （ Tx > r d , Ro&s & I # p P e r ，1979) 发现，与读者们的观点持相 

反态度的研究相比，他们会对支持其观点的研究给予更好的评 
价。更引人注意的是，尽管那些参与洛德和他的同事们研究的 
大学生都读过同样的研究摘要，但他们表现出 f 不同的态度分 
化。也就是说，尽管所有的参与者都阅读过一项支持他们预想 
的研究和一项驳斥其预想的研究，阅读完这两个研究之后，参 
与者更倾向于支持他们原预想的研究。 

在研究评估阶段，有一种办法能够减少综述者的倾向给研 
究带来的影响，那就是让进行信息汇总而不知道研究结果的编 
码者对研究进行评估，让不熟悉某一研究领域的不同编码者对 
所要研究文章的不同部分进行编码。比如，一个编码者编码方 
法部分，另一个编码结果部分。施拉姆 （ Schramm ， 1989) 曾评 
价过这个“差别复制 （differential photocopying ) ”方法。她发现 

这样做会产生新的问题，并且也不能提高评判者间的信度。 

这样看来，综述者对研究结果的倾向会影响他们对研究方 
法质量的判断。如果一项研究与综述者的倾向相左，那么综述 
者有可能会在研究中试图寻找他们认为与研究不相关的问题 
或者是不合理的方法部分。然而，如果研究支持了综述者的 f 顷 
向，即使对研究存在某些疑问或研究方法存在部分瑕疵，综述 
者也会把它们纳人到综述中。 
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判断研究质量 

研究质量的判断可能要比综述者的倾向性涉及的问题更 
广。它甚至可能成为判断什么是“合格”、什么是“不合格”研 
究的关键因素。 

对研究质量评估共识的研究。 大量研究已经分析了提交 
给心理学 （Fiske & Fogg ,1990； Scan * & Weber ， 1978 )、教育学 
(Marsh & ball ，1989 ) 和医学领域 （ Justice ， Berlin ， Fletcher , & 
Fletcher ，1994) 期刊稿件的评估信度。这些研究测评了经读者 

推荐的稿件的质董，这关系到该稿件是否被批准发表。 

有这样一个有趣的例+，皮特和西赛 （Peters and Ceci ， 

1982) 向期刊再次投递了 12篇已经发表过的文章，并且两次投 
的期刊相同。再次提交的文章内容保持和原稿一样，只是改变 
了提交者的名字，并把他们的会员级别从“高级別”转换成“低 
级别”状态。在这12篇文章中，只有3篇被审查出是再次提交 
的。在另外9篇已经完成评审过程的文章中，有8篇没有获准 
发表。 

在很多方面，原稿评审者的判断比研究综述者的判断更复 
杂。原稿评审者必须要考虑许多研究综述者不感兴趣的因素， 
包括写作的清晰度和期刊读者群的兴趣。另外，期刊编辑有时 
也会故意选择持不同观点的评审者，他们希望评审者能认同原 
稿的论点。当然，如果在评审者之间应用一个完善、客观的评 
判标准，他们也会达成共识。 

戈特弗里德森 （ Gottfredson ，1978 ) 曾研究过手稿评审者和 
研究综述者对一项研究判断的区别^通过让作者推荐有能力 
的专家评审他们的研究，他解决了可能由于初始偏差的区別导 
致的判断评定等级的易变性这一问题。戈特弗里德森获得了 
至少由两名专家评估的121篇文章。这些专家用三个问题最 
表评审了文章的质量，给出了术语“质量模糊”的含义。他们得 
出的交互判断一致性系数 r =0.41。当运用一个36项评审量 
表评估研究质量时，他们得出的交互判断一致性系数 r =0.46。 
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为什么研究质量的总体判断存在差异呢？除了个人倾向 
的差异外，还有两点可能也是影响评估者质量判断的差异来 
源： （ a ) 评估者对不同研究设计特征给予的重视 程度； （ b ) 他们 
判断某研究需要满足的设计标准。为了说明第一个差异来源， 
我进行了一项研究，这项研究由六名专家组成，主要说明了在 
学校废除种族歧视。为丫有效构建该研究的“效用或知识价 
值”体系，我要求他们按照重要程度排列六个设计特征的等级 
次序 （ Cooper , 1986) 。这六项特征 包括： （ a ) 实验操作（在这项 
研究中，即界定“废除种族歧视 ”）； （ b ) 控制组的充分性 ； （c ) 研 
究结果测量的 效度； （ d ) 样本的代 表性； （ e ) 围绕着研究环境条 

件的代 表性； （ f ) 统计分析的适当性。专家排序的交互相关系 
数从 r =0.77 到 r = -0.29 不等，平均相关系数为 r * =0. 47。 

槪括来说，关于方法论质量判断的研究显示，评估者在某 
些方面很难达成共识。而有时，选择的这些判断代表的是不同 
的观点。同时，“统计测量协议”被批判过于保守 （ Whitehurst , 
1984)。最后，通过增加更多的判断者能够增强判断的信度。 
也就是说，一篇论文是否发表，主要由作为样本的10个评审者 
的意愿等级决定，平均来说，10名评审者的意见比2名评审者 
的意见更能说服人。然而，对期刊编辑和综述研究者来说，在 
判断研究质量时，很少能找到这么多的评审者。 


研究的预先排除与研究差异的事后分析。 在评估过程中， 

对研究质量和研究过程中个人倾向的作用这两个问题的研究， 
成为了主观性对研究的科学客观性的挑战。这一点很重要 ，闵 
为研究综述者经常要讨论研究质量的预先判断应该保留在研 
究中还是应被排除。 

这个争论的相关观点在艾森克 （Eysenck ,1978) 、格拉斯和 • 
史密斯 （Glass & Smith ，1978 a ) 关于史密斯和格拉斯 （Smith & 
Glass ,1977) 早期的有关心理治疗的元分析研究中充分体现出 
来。史密斯和格拉斯 （Smith & Glass ，1977) 归纳总结了三百多 
个关于心理治疗的研究，但由于方法论拙劣而没有对研究做预 
先排除。艾森克认为这一做法是对学术和严谨判断的 背离： 


大量的报告 


不论是好的、差的或者是无关紧要 
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的——都被塞入计算机中，希望人们能够停止对建立在研 
究结果基础上的材料质量的担心……“垃圾进一垃圾出 
(garbage in — garbage out ) ”是众所周知的计算机专业人员 
使用的术 语①； 这一术语应用在这里依旧奏效。 （ p .517) 

艾森克总结道，“只有比文献研究中更好的实验设计才能 
提升人们的认知水平。” （ P . 517) 

然时，在本章和前面几章，史密斯和格拉斯 （Smith & 
Glass ，1978 a ) 曾提到过几点。首先，正如在第2章提及的，如果 
不同的研究得出的结果是一致的，那么这残不同研究里拙劣的 
设计特征可以被“删除”。其次，预先的研究质量判断需要排除 
个人偏见的影响。最后，格拉斯和史密斯声明他们并不主张放 
弃质量标准。相反，他们把对研究结果的设计质量的影响认为 
是“一个事后的实证问题，不是一个预先看法不同的问题” 

( Glass , McGaw ，& Smith ， 1981， p . 222 ) 。他们建议综述者应当 

全面地对研究设计的各个方面进行编码，不管是好还是差，如 
果这些研究结果和操作有关的话，都需要论证它们。 

格拉斯和他的同參们一致赞成在研究综述中使用严格的 
方法标准。在预先偏见的基础上，是包括还是排除这些研究， 
需要综述者对研究质量做出总体判断，而这常常是主观的，因 
而不够可信。取而代之的是综述者可以详细列举出某一研究 
的特征，然后比较研究特征与研究结果，用以证实他们是否一 
致。如果实证研究证实了“好”的研究与“差”的研究结果不 
同，那么“好”的研究便是可信的。如果没有发现差异，仍须谨 
慎地保留这个“差”的研究结果，因为他们可能包含了方法中 
的其他变化 （ 比如样本和检索方法的不同）。保留它们，将会有 
助于许多相关问题的解答。 

只有在一种情况下，在文献搜索之前，当排除研究的标准 


①译者注 :“ Garbage in-garbage out ” ，缩写为 CIGO -这是在资料处理上一个十分著 
名的理论，这个理论强调的是，计算机系统只能对有意义的榆入资料处理，产生 
有意义的榆出，无论计算机的能力多强，假使输入计算机当中的资料是垃圾（指 
错误的资料），則输出来的必定是没有用的资料：也就是说，假如输入一堆乱七 
八糟的东西到计算机里，那么结果就也是乱七八槽的，一般用来指要求數据的 
精确性 




M 4 0 数据评估阶段 XI 


已经确定，研究的预先排除可能是合适的，但是这些标准也不 
会为了迎合综述者的需要而轻易改变。同时，在综述者认可的 
研究数量足够多的情况下，他们就能够充分地证实任何一般性 
结论。然而在大多数情况下，应该让数据说话，也就是说，对于 
所有的由于方法不同得出的不同的实证研究和检验结果，我们 
要用发现研究的过程取代综述者的个人倾向。 

分类研究方法的途径 

对实证检验研究结果方法论的判断并不会减轻综述者的 
评佔责任。综述者必须决定哪些研究方法论特征应被编码。 
正如我在前面指出的，这些决定有赖于通过仔细审査问题的性 
质和相关研究的类型。如果某一问题主要通过在实验情境中 
的实验操作来完成，与已经使用的相关研究、田野调查或混合 
使用上述两种方法相比，使用一系列不同的方法论特征可能更 
重要。在过去，研究综述者在编码时需要应用两种方法来帮助 
他们发现“好”的和“差”的研究差异。第一种方法需要综述者 
对研究中可能存在的效度威胁做出判断。第二种方法要求综 
述者像原始研究者描述的那样，详细描述研究的客观设计 
特征。 

故皮成胁的逾往 

当坎贝尔和斯坦利 （Campbell & Stanley , 1963 ) 介绍“效度 

威胁”这个概念时，他们是按字面意思将其引人到社会科学中 
的。他们认为在一系列和研究设计相关的外在影响因素中，能 
够发现“可能产生了与实验促进因素相混淆的效应” （P. 5)。 
不同的研究设计有不同的“效度威胁”，这些研究设计应该依 
据他们的推理能力而加以对比。更重要的是，当单独的、“完 
美”的研究不好操作时，不太理想的设计町以通过“三角测量 

秦 

(triangulated) ” 方法从多重研究中得到较强的推论。 

坎贝尔和斯坦利 （Campbell & Stanley , 1963 ) 提出的概念是 
以人们日益增多的对研究质量的“敏感性”和“客观性”的讨论 



88 义 H 方法 如何做综述性研究 

为前提。然而提出不久，一些在他们方案中应用的问题变得显 
而易见。这些问题和创建一个详尽的效度威胁列表相关，并且 
确定了这些威胁可能会涉及的问题。 

最初，坎贝尔和斯坦利 （Campbell & Stanley , 1963 ) 提岀了 

两个较宽范的“效度威胁等级”。“内部效度威胁”在实验处理 
和实验效应之间直接相互对应。如果研究设计的不足对这种 
对应性的危害达到了一定程度，那么解释研究结果的能力将遭 
受质疑。坎贝尔和斯坦利列出了8类内部效度威胁。“外部效 
度威胁”涉及研究结果的普遍性 （generalizability ) 0 外部效度 
评估需要评估研究的参与者、工具、手段和测量变量等代表性 
因素。尽管对研究的外部效度从未做最后的评定，坎 W 尔和斯 
坦利仍列出了 4类具有代表性的威胁。 

接着，布拉特和格拉斯 （Bracht & Glass ，1968) 提供了一份 
扩展的“外部效度威胁列表”。他们认为“在坎贝尔和斯坦利 
的研究中，外部效度并没有像内部效度分析的那样到位” （ P . 
437)。为了更好地说明他们的观点，布拉特和格拉斯把外部效 
度细分成两大类：第 一 类是“总体效度 （population validity )” ，指 
的是对总体的普遍意义。第二类是“生态效度 （ecological valid ¬ 
ity )" ，指的是非抽样设置。下面，我将2个具体的对总体效度 
的威胁连同10个对生态效度的威胁一起进行描述。 

随后，坎贝尔 （ Campbell , 1969) 增加了第九个内部效度威 
胁，称之为“不稳定性 （ instability )”， 并界定为“测量的不可靠 

性、抽样人群或其他构成要素的波动等”。 （ P .411) 

库克和坎贝尔 （Cook and Campbell , 19 7 9)后来乂提供了一 

份包含了 33个效度威胁的详细列表，并粗分为四个层次。“构 

念效度”和“统计结论效度”的概念被添加到内部效度和外部 
效度中 。 “构念效度 （ construct validity ) ” 指的是“理论构念或假 

设的合理性、科学性及其转换为研究 B 标的恰当程度和可操作 
性” （ P . 59 ); “ 统计结论效度 （statistical conclusion validity )” 是 

关于研究的数据分析处理程序的效度检验，或者说，它是检验 
研究结果的数据分析程序与方法的有效性指标。 

从这一简史来看，使用效度威胁途径来评估实证研究质量 
的问题应该很清楚。首先，不同的研究者可能会使用不同的效 
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度威胁列表。例如，坎贝尔 （ Campbell ，1969 ) 起初提出的“不稳 

定性威胁”应该是由一个威胁组成，还是像库克和坎贝尔 （Cook 
and Campbell ，1979) 重新界定的由三个威胁组成？ “生态效度” 

是由一个威胁组成还是由十个不同的威胁组成？第二个问题 
是相对权重的 威胁： 在构思效度中，包括在历史困惑中的威胁 
与包括在有限制的概括性的威胁的权重是否相等？对某一特 
殊的威胁该如何分类，方法论学家的意 见也+ —致。举例来 
说，布拉特和格拉斯 （Bracht & Grass ，1968) 把“实验者的期望 
效应”作为外部效度的一种威胁，而库克和坎贝尔 （Cook and 
Campbell , 1979) 却把它作为构思效度的一种威胁。 

尽管存在上述问题，在研究评估过程中，效度威胁的途径 
不仅代表了在研究精确性上取得的进步，而且对于它所代替的 
预先单个质量判断当然是更可取的。每一项威胁的连续列表， 
都反映 r 综述者在研究精确性上取得的进步和知识积累的不 
断增长。同样，效度威胁列表也为综述者提供了明确的标准和 
应用变更的依据。从这种意义上讲，使用威胁效度途径的综述 
者也使他们的判断方法变得开放，从而可以应对各种批判和争 
议。这是使研究评估过程更加客观的关键一步。沃特曼 
( Wortman , 1994) 对这种方法的应用做出了很好的总结描述。 

方法描或逢往 

就像原始研究者描述的那样，研究评估中的第二个途径， 
要求综述者对研究方法的每个客观特征全部进行编码。方法 
描述途径在前面也谈到过，它是和研究编码单联系在一•起的 
(见第2章）。在本章，我将依次详细分析。 

在坎 R 尔和斯坦利 （Campbell and Stanley ，1963 ) 最初的研 

究中，描述了三个前实验设计，三个真实验设计和十个准实验 
设计。而后库克和坎贝尔 （Cook and Campbell ，1979) 乂扩充了 

实验设计的列表。在大多数研究领域中，很少有一些有效的实 
验设计能够详尽地描述相关研究中的自变量和 W 变量的关系。 

如坎贝尔和斯坦利在研究中提出的，实验设计主要是为了 
消除对内部效度的威胁。他们掌握了三种其他类别的少量信 
息，用以说明对可靠性产生的威胁。其中一些在第2章已经提 
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过，但是这里要再加以详述。例如，信度分析，对于实验操作和 
实验测量，需要描述原始研究者在这一过程中创造出自变量和 
测量因变量的方法。关于操作自变量，综述者可以对实证研究 
的数量和类型进行 编码：自变董 有多少种操作方式？这种操作 
性是不是可以通过书面说明、胶片或真实的情境创造完成？同 
样，综述者可以记录下控制关系是否存在，从而使实验者不知 
道处理状态，或者是否使用了欺骗行为，抑或是错误指示的情 
况下远离假设猜测。显然，只有在处理操作运用在感兴趣的研 
究中时，这些考虑才是适当的。 

这些测量的信度，只要评估是有效的，不管它们是 U 头上 
的、文字的、行为的或人际关系上的 判断； 对于某一研究，不管 
它们是否为标准的、非正式的或构 造的； 通过记录的测量，就可 
以对测量技术特征进行编码。其他测暈特征可能也对某一研 
究领域感兴趣。 

关于研究结果的总体效度和生态效度的普遍性，有人曾建 
议综述者记录下原始研究中单独抽样类型的限制因素，并且记 
录是在何时、何地进行的研究，何时因变量测暈与操作或自变 
量测 M 有关。 

最后，为评估一项研究的统计力，综述者应记录下参与者 
数量，是否使用受试者间设计或受试者内设计，通过分析和使 
用统计检验得岀一些其他因素 （ 差异来源）。 

评估阶段的方法描述途径和效度威胁途径共同面临着一 
个问题，就是不同综述者可能会选择列出不同的方法论特征。 
然而，方法描述途径也有自己的一些优势。首先，当一项研究 
被编码为方法描述途径时，它就不需要过多的综合材料或推论 
判断。被称为“统计力低”的判断提供了一个很好的例子，仅通 
过一些简单研究特征的合并，如样本量、受试者内设计或受试 
者间设计、统计检验的固有能力（比如参数与非参数）、从分析 
中得出的其他差异来源，或者所有上述这些因素，编码者就可 
以判断一项研究是否有很好的机会拒绝错误的虚无假设。从 
事同一研究的两个编码者对一项研究的统计力是否为低而意 
见不一，但他们都非常赞同能够弥补决策的单独成分的编码。 

客观的研究设计特征能够减少编码含义的模糊性，因此信 
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度更髙。这个问题变为 ：在研 究初次编码时，为了观察效度威 
胁是否存在，需要对综合的方法论信息进行评估吗？对于大多 
数的威胁，答案是“不用评估”。举例来说，如果一项研究的分 
析结果表明，使用广受试者内设计的研究发现了显著件结果， 
那么综述者就可以分析所有的关于它的效度影响的设计特点。 
也就是说，受试者间设计的统计力太低，因 rfr ! 不能显示一项研 
究效果，或者受试者间设计的预测最可能使参与者对向变量操 
作更敏感。因此，尽管很难检索到产生效度威胁的某一方面的 
一个研究设计，当综述者对研究的方法论特征进行编码时，仍 
旧可以经常检杳效度威胁。 

混合祛准途往 

分类研究的最理想策略似乎是上述两者混合使用的后验 

方法 （ a posteriori approaches ) 0 首先，综述者应把研究设计所有 

潜在相关的、客观方面都进行编码。可是，单凭这一信息可能 
捕捉不到效度威胁。例如，内部效度威胁涉及如何对待控制 
组，也就是处理方式的扩散、补偿性竞争或不满意条件下的怨 
恨性怠工——这些都有可能直接编码成为效度的威胁，是否存 
在上述这些因素很大程度上取决于原始研究者在研究中的描 
述。尽管这种混合标准途径不能解决研究评佔中的所有问题， 
但使用这一途径可以把之前该领域大量存在的主观、武断的判 
断引向客观、清晰的研究方向。 

综达素例 

在四个综述案例中，有两个较好说明了研究评估是如何进 
行的。 

首先，关于家庭作业效果的综述包括了三个编码，它们与 
研究的内部效度相关，分 别是： 实验设计的类型（例如，随机分 
配或非等价控制组）；处理是否 平衡； 实验者是否是班级教师。 
其他的家庭作业研究的编码与研究的构思效度、外部效度和统 
计结论效度相关（见表2.1)。 

值得注意的是，家庭作业研究的编码者没有对涉及的方法 
或方法的效度进行推论，他们只是简单地搜集了原始研究者报 
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告中所指的信息。使用随机分配、平衡处理和实验者不完全是 
班级教师的研究显然是更好的。然而，低于这个理想状态的研 
究，也应包括在综述中，同时我也分析了设汁因素对实际研究 
结果的影响。只有在设计和结果之间发现了重要关系之间的 
差异，研究结果的加权才是相对可信的。 

对人际期望效应中人格调和的综述研究而言，人格测量的 
信度是一个重要的方法论问题。众所周知，在其他因素相同 
时，与更可靠的测量相比，不太可靠的测量与其他变量产生的 
相关性较小。因此，如果一种人格维度测量的信度低于第二种 
人格维度测量的信度，如果第二种测量与期望偏差产生的相关 
性较大，就不能认为由人格维度影响的“真实的”差异引起的 
相关性较低，或第一种维度经测量后存在的偏差较多。 

为评估研究方法的信度对综述结论的影响，每种人格测量 
被编码为 ：（ a ) 使用测量工具得到的可靠性数据是否有效（通 
常，这需要从根源而不是从正在编码的研究报告中査找） ；（ b ) 
信度的类型（比如，内部一致性或再测信度分析 ）；（ c ) 信度估 
计。找到了涉及内部一致性估计的48个比较和涉及再测信度 
分析的22个比较。但在36个人格测量中无法找到信度估计。 

当综述者检验人格维度和人际期望之间的关联程度是否 
与人格测量的信度相关时，并没有发现显著性关系。因此，在 
测量可靠性时，综述者需要排除其中的变异，因为这会威胁到 
如下结论的效度，即不同的人格维度和期望偏差之间存在不同 
的关系。 


数据检索的问题 


迄今，我已经讨论过综述者发现和评估研究的方法。在数 
据检索和评估方法中存在的一些不足应当引起我们的注意，不 
管综述者做的多么全面、仔细，这些不足会妨碍综述者的研究。 
一些潜在的相关性研究并未公开，就是在一些比较全面的搜索 
过程中也发现不了。关于评估研究，不可能完全消除在研究过 
程中存在的主观性影响，并且一些判断本身就让人感觉模棱两 
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可。在研究综述的数据检索和评估过程中还存在一些问题，这 
些问题几乎完全超出了综述者的控制范围，包括 ：（ a ) 图书馆 
没有能力确保综述者手头上拥有所有可能相关的 文献； （ b ) 原 
始研究者提供的不完整或不仔细的数据 报告； （ c ) 从研究中检 
索信息时，检索者小完善的信息处理技术。下面将分别讨论这 
三个问题。 

图书徐拾余的问題 

每个综述者都可能会发现，在他们的个人或单位的图书馆 
里，找不到他们需要的一些可能相关的文件（根据题 B 或摘要 
査询）。综述者需要在多大范围内检索所需的文献呢？馆际互 
借是一个可行的办法。正如在前面提到的，通过馆际互借可以 
获得一些硕博士论文，或者，也可以从国际大学微缩胶卷公司 
购买一些学位论文。 

有时，个人联系常常很少有人响应，另一种可能就是直接 
联系原始研究者。综述者能否检索到原始研究者提供的文献， 
部分上要受所需文献的保存时间和索要文献者的地位的影响。 

总的来说，确定在检索文献上该付出多少努力是很闲难 
的。研究者应该考虑以下因素符合要求的文献是否包含 
着相关信息，如果包含，有多少？ （ b ) 在所有已知相关的文献 
中，难以找到的文献所占的百分率是多少？ （ c ) 执行额外的检 
索程序所花费的成本 （ 比如馆际互借较便宜，购买学位论文较 
贵）； （ d ) 综述者操作的时间限制。 

不免整和错鍈的研尧板告 

在数据检索阶段，也许最让人沮丧的是综述者得到了原始 
研究报告，但是报告中并没有他们所需的信息。对打算使用元 
分析的研究综述者来说，首先要关注不完整的报告。 一 些报告 
中可能缺少了统计结果的信息，这就会妨碍元分析者估 计两组 
之间或两个变量之间的差异程度。另外，一些报告中可能缺少 
了对研究特征信息的描述，这就会妨碍元分析者判断研究结果 
和研究操作之间的相关性。对于这些缺失的数据元分析者应 
该怎么办？下面将介绍一些用以解决上述常见问题的惯例。 
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不完整报告的统计结果 

在研究报告中，有时包含了原始研究者执行的、不充足的 
统计程序结果信息。当结果非显著时，这些统计数据往往被省 
略了。当某一关系或比较被报告为“不显著”，并且原始研究 
者也没有给岀相关的均值、标准差、推理检验值^值或效应 
量，综述者的选择余地就很有限了。 

联系原始研究者向他们索要信息是一个选择。正如我在 
前面谈过的，这个策略的成功，部分取决于能否找到研究者和 
索取信息者的地位。研究者检索信息的难易程度决定了获取 
信息的可能件。如果这项研究比较陈旧，如果综述者渴望得到 
的分析和原始操作差别很大，或者要求索取的信息量比较大， 
那么获取信息的机会就比较小。 

把这些比较当作尚未检验的无效结果来处理是另一个选 
择。也就是，假定概率为 0.5( 单尾的情况下）且关系强度为0 
时，任一统计分析都包括这样的比较。期望这种惯例对元分析 
的结果有保守性的影响，也是比较合理的。总之，与准确知道 
非显著性关系的结果相比，当应用这一惯例时，平均关系强度 
更接近于0。 

在元分析中排除比较是第三种选择。与得知的缺失值相 
比，这种选择可能会导致较高的平均关系。如果其他所有条件 
都是相同的，非显著性结果将和抽样估计分布中较小的关系估 
计相关。 

相对于已知数值的数量，特别是如果缺失值存在较少，大 
多数元分析者会采用第三种选择。如果元分析者能够根据他 
们研究结果的方向对缺失值比较进行分类，也就是说，如果他 
们知道哪组的均值更高或知道这种关系是正相关还是负相关， 
这些比较就能够包括在计票程序中（在第5章中讨论）。使用 
投票数，便可以估计一项关系强度的大小 （Bushman and Wang ， 
1995)。 

如果在众多比较中发现了缺失的结果，在排除了缺失值并 
把他们算作完全无效结果的情况下，元分析者便可以计算平均 
关系。这样，元分析者就可以确定他们在总体结论中使用的不 
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同数据假设是否相同。当统计学家使用不同的假设分析相同 
的数据时，被称为“灵敏度分析”。 

除了一些不完整的报告外，还有一些报告的统计数据也是 
不准确的。许多报告描述的是当统计检验达到/; <0.05 的显 
著性水平，而不是描述 与推论 测验结果相关的准确概率。在这 
种情况下，必须依据 P 值计算他们期望的统计暈的元分析者， 
可以通过重新计算 P 值来反映其精确值。 

有时候，报告中会包括一项比较的统计结果，但是元分析 
者仍不能得到他们所需的信息，因为这 一 检验程序是原始研究 
使用的。综述者在作定暈合并时，通常发现两个原始分析不能 
采用同一标准衡量，因为它们是建立在不同的分析设计的基础 
上。举例来说，如果一个研究报告了一项简单的£检验比较， 
主要测量了酒精和控制组的攻击性，而其他研究报告了一项方 
差分析，主要是把参与者的性別和年龄作为设计中的额外因 
素。在所有条件都相同的情况下，假设性別和年龄效应——第 
二个实验产生的概率水平较小而洒精的效应较大，主要是因为 
在第二个分析中，酒精与控制比较差异的误差项较小。 

格拉斯等 （Grass et al . ,1981 ) 通过在研究设计中使用了许 

多不同的因素，勾画了从研究结果中得到的相等的统计结果方 
法。实际上，在实施必要的转换时，原始研究者很少能详细充 
分地报告他们的研究结果。为了确定一项研究的统计结果与 
分析中的若干因素是否相关，元分析者应该使用实证研究方法 
进行检验。如果发现是相关的，综述者应该分别报告从研究分 
析中得到的结果，并且这些结果仅使用感兴趣的单一因素。 

当检验和表达相同的关系时 ，一 些原始研究者使用了“参 
数统计”（假设为正态分布的统计），而另一些研究者使用了 
“非参数统计”（对分布没有做出假设），这时又会产生其他的 
问题。比如，如果一位研究者通过计算由每位参与者控制的 
“平均冲击强度”，测量了酒精研究中的攻击性（使用参数检 
验），其他的研究只是简单记录了每个参与者是否进行了攻击 
( 使用非参数检验）。通常，建立在假设基础上的统计方法比其 
他方法远具优势。而从较少使用的方法中得岀的统计量也能 
转换为使用主导方法得出的统计暈，并且综合起来就像他们共 
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同使用的主要假设一样。只要转换的数量少，结果就不会有大 
的偏差。如果参数检验和非参数检验之间的分歧相对均衡，就 
应该分别检查这两组研究。 

最后，在统计分析中还存在着误差问题。在统计分析中， 
尽管没人确切知道存在的常见误差有多少，但元分析者应该对 
研究报告里描述的统计量进行交互检验，以确保研究结果中不 
包含野值 （wild value )， 并且在一项比较中报告的所有结论彼 
此间是相互一致的。 

不完整报告的其他研究特征 

除了研究结果以外，研究报告里面可能会遗漏有关研究细 
节的信息。例如，报告中常常缺少了样本构成的信息（如样本 
的性别、年龄或种族构成）或处理特征（如处理真度或强度）。 
元分析者也需要这些信息，他们可以据此分析处理效应或关系 
量是否与在进行了比较或佔计的条件下相关。当缺少了这种 
类型的研究信息，尽管这些信息可能包括在其他的分析中，并 
且所需求的信息是可靠的，元分析者则必须从分析中排除 
比较。 

元分析者关注的数据缺失数量已经高于研究特征中的缺 
失数量，原因将部分取决于这些数据为什么缺失。一些数据的 
缺失是随机的。也就是说，在说明一些研究报告为什么包含这 
些研究特征的信息，而在另一些研究特征中没有被包含时，没 
有系统地原因来解释。如果是这种情况，检验了研究结果和研 
究价值特征关系之间的分析结果，就不会受到缺失数据的影 
响，当然，丧失统计力的情况下除外。 

如果原因数据的缺失与研究结果或者与缺失数据值相关， 
那么这个问题就比较严重了。如果说是这种情况，缺失数据就 
会影响到分析的结果。比如，如果研究结果表明了酒精对攻击 
行为有显著性影响，原始研究者便更有可能把研究中的参与者 
报告为所有男性。“非显著性效应”往往和混合性别的样本有 
关，但是元分析者不知道，因为发现非显著性结果的研究者较 
少倾向于报告样本的组成部分。那么在这个案例中，元分析者 
就很难发现性别和酒精效应量之间的关系。 
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皮戈特 （ Pigott ，1994) 在处理缺失研究特征上提出了一些 
策略。第一，提到研究结果，可以在分析中排除比较。第二，缺 
失值可以填充到所有感兴趣的研究特征的已知数值中。缺失 
值可以由对研究特征感兴趣的所有已知值的平均值填充。除 
非提升它的统计力，否则这一策略不会影响分析结果。在一个 
分析中，如果元分析者想检验若干研究特征，那么这个方法再 
合适不过了。在这种情况下，一个单一的缺失值可能导致删除 
整个研究，这样做是我们所不希望的。第三，可以通过回归分 
析来预测缺失值。实质上，这个策略就是使用其他研究中发现 
的缺失变量的已知数值来预测缺失数据点的最可能值。为了 
估计缺失数据，皮戈特还描述了一些比较复杂的方法。 

在大多数情况下，我建议元分析者使用比较简单一点的方 
法来处理缺失数据。使用的方法越复杂，它面临需要证明的假 
设就越多。同样，使用比较复杂的方法，进行灵敏度分析就变 
得越加重要。在分析过程中，当缺失值被简单省略时，比较使 
用填充的缺失值结果与得到的结果通常是个好办法。 

编碼研堯结果的不可靠性 

编码错误的来 i 

就像在数据分析中研究者有时会犯一些错误一样，这些错 
误也有可能发生在数据记录的过程中。当研究综述者从研究 
报告中提取信息时，对他们来说，转录错误 （transcription errors ) 
也是一个问题。罗森塔尔（1^ 5 ^1出 3 1，1978)总结了21项研究， 
主要分析了记录错误的频率和分布。这些研究显示，所有记录 
数据的错误率范闱是从0%到 4. 2%。在所有记录中，倾向于 
确定研究的初始假设在同一方向上的错误占64%。 

i 己录错误并不是研究编码里不 吋靠因 素的唯一来源。有 
时候，编码不可靠主要是因为原始研究者的描述不清楚。有时 
候，研究综述者提供的含混不清的定义导致了一种异议，主要 
是对一项研究特征如何进行合适的编码。最后，正如我在前面 
提到的，编码者的倾向也会引导他们朝向自身所青睐的解释方 
向编码。 
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在一个综述研究中，司多克、奥肯、哈林、米勒和金尼 （ Stock , 
Okun , Haring , Miller , and Kinney , 1982) 经实证研究检验了一 * 

些不可靠的编码。他们让三个编码员（一个统计学家和两名博 
士后教育研究者）从30个文档中记录了 27个不同的编码类 
别。司多克和同事们发现一些变量，例如参与者年龄的平均数 
和标准差，是比较理想的或接近于理想的编码。只有一个命 

题，即研究者使用的抽样方法的类型，编码者的平均接受程度 
不到80%。 

缩减 和估计编码者的错误 

虽然原始研究的编码者检索的信息是十分可信的，但采取 
一 些确保编码可靠性的措施是十分有益的。尤其是当需要编 
码的研究数量很大，或者进行编码的编码者所受的研究训练有 
限，这一做法的作用就突显出来。尽管如此，综述者还应把编 
码研究作为数据搜集的标准化训练。综述者应当遵循第2章 
讲过的规则编制全面的、内容丰富的编码单。编码单应当附有 
解释每个条目含义的编码本。在编码开始前，编码者应当制定 
出需要 i 寸论的内容和实际案例。 

编码者获得可靠的数值估计常常也是很重要的。在实际 
编码开始前，应使用控制组的研究评估信度。只有在交互编码 
信度达到了可以接受的水平时，才能开始编码工作。编码开始 
后，综述者可以随机选杼研究来检查编码者的信度。 

有很多种方法可以用来量化编码者的信度，但这些方法中 
仍存在着一些问题（见 Orwin ，1994, 全面问顾了评估编码的决 

策 ）0 在研究综述中有两种方法比较常见。最简单的，研究综 
述者可以报告编码者之间的“认同度”。“认同度 （agreement 
rate )” 是指用一致认 nj * 的编码数量除以编码的总数量得出的 
值。科恩的“卡帕方法 （ Cohen’s Kappa )” 也比较常用，它是测 
量一致性程度和信度评价的有效指标。卡帕方法也可以定义 
为编码者在研究方法上取得的进步。 

一 些综述者会把认同度和卡帕方法一起报告，同时他们也 
会分别报告每个编码的研究特征。其他综述者会让两个编码 
者检査每一项研究，然后比较编码，接着 通过讨 论或与第三个 
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编码者商议来解决编码的差异。使用这种方法迸行编码的信 
度较高。也有一些综述者会让个别编码者标注出他们最不确 
信的编码，然后在小组会议中讨论这些编码。使用这种方法进 
行编码的信度也比较高。 

综迷棄例 

在家庭作业效应的研究综述里，通过文献搜索检索到的可 
能相关的文章不足12篇，并且这些文章也不能应用于研究综 
述。因为它们大多很陈旧，而且多是在北美以外发表的，或是 
未公布的文献。在这些文献中，被判断为实际上是可能相关的 
文献不到总文献的5%。 

人际期望效应中人格调和的研究综述面临的最大难题是 
缺失数据。这是因为相关系数通常被报告为不显著，相关关系 
量也没有给出。确定一篇发表的期刊文章是否是一篇学位论 
文报告，是一种弥补缺失数据的方法。如果是，就可以得到完 
整的学位论文。这些完整的学位论文通常包含了对数据结果 
更完整的描述。 

最后，家庭作业综述包括了一个正式的信度检验，主要检 
验的是被编码的研究。两个编码者计算了涉及13种类別的卡 
帕系数和一致性百分比。信度估计表明“完全同意”的类别有 
7种。当编码者检索学生每周做的家庭作业数量时，最低的信 
度为 =0.71 ，“认同度”达到了 79%。每当出现“不同意见” 
时，这两个编码者要一起检杳这个研究并解决它们存在的 
差异。 

确认独立比较 

数据评估阶段必须做的另一个重要决策，就是如何确认独 
立比较或估计关系强度。有时，一个单独研究中可能包括了相 
同比较或相同关系的多元检验。出现这种情况有两个原 因：第 
一 ，对可能使用的相同构想进行了多次测量，并对每次测量进 
行单独分析。比如 ，一 位酒精研究者会通过自我报告和观察来 
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测量攻击性。第二，在同样的研究中，使用丫不同的抽样人群, 
并对他们的数据进行单独分析。比如在对强奸态度的研究中， 
研究者提供给所有参与者的情境相同，但分別对男性和女性进 
行了单独分析，就会发生这种情况。在这两个例子中，相同研 
究中的单独估计也不是完全独立的，它们会受共同的历史和环 
境的影响。在前一个案例中，从同样人群中搜集的信息也是其 
影响因素之一。 

非独立比较的问题可以进一步研究。有时候，单独的研究 
报告描述的研究不止一个。有时候，多个研究报告描述的研究 
是在同一实验室进行的。综述者可能归纳出在同一地点进行 
的研究，即使它们在单独的报告中出现了很多年，仍有某些不 
变因素可以表明这些研究结果不是完全独立的。有相同的 N 
样倾向的原始研究者可能会使用同样的实验室，并从同样的人 
群中选出研究参与者。 

在许多情况下，尤其是综述者想要做元分析时，他们必须 
确定统汁检验何时可以被认为是独立事件。下面提供了一些 
在研究综述中使用的可供选择的、适当的分析单位。 

矣验金作为羊位 

把实验室或研究者作为最小的分析单位是确认独立统计 
检验最保守的方法。这种最保守方法的倡导者指出，与在同一 
实验室中经过重复研究得出的信息价值相比，从独立实验室报 
告的相同数量的研究中获得的信息价值更重要（通过计算组内 
值 r , 可以评估从同一实验室获取的独立研究的实证程度）。这 
种方法要求综述者搜集 在同一 研究实验室做的所有研究，并推 
导出研究结果的总结论。然而，这样做也会产生一个弊端，就 
是要求综述者要在综述的范 W 内做综述，因为对如何综合研究 
结果这一问题，他们首先必须在实验室内做出决策，然后才是 
在实验室之间作出决策。 

这种方法实际上很少用。通常它被认为是太保守、太浪费 
信息资源，这些信息资源主要来源于不同研究结论的变化分 
析，甚至是同样场所的研究。当然，在搜索研究结果的调节量 
时，使用研究者作为一个研究特征来确定实验室或研究者是否 
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与研究结果的系统差异相关是有町能的。 

研究作为羊位 

使用研究作为分析单位，要求综述者对单独研究报告的所 
有相关比较的结论作出总决策，而不是仅仅汇总很多研究的研 
究结果。如果单个研究中包含了很多相同比较检验的信息，综 
述者便可以计算出平均结果并在报告屮描述岀来。或者，也可 
以使用中间结果。如果存在一种合适的测量方式，比如说，一 
个具有良好描述特征的特定强奸态度量表，那么这一研究结果 
就可以代表整个研究。 

使用研究作为分析单位，确保了每个研究对总的综述结论 
所起的作用是相等的。举例来说，在一项估计强奸态度和权力 
需求关系的研究中，使用了两个年龄组和两个不同的态度量 
表，一共包含了四种相关关系。使用某种方式计算出它们，从 
报告中获取的某一单相关关系同时也确保 了对其 他报告 （ 山一 
个年龄组和一个态度量表组成）以同样的思考。 

一项研究由什么构成，综述者对此问题的判断将带有一定 
程度的主观性。例如，综述者可能会认为，一篇单独的期刊文 
章或稿件里的所有结果是一项研究。其他综述者 " J * 能会认为， 
一份把结果分成独立研究的报告里包含的研究不止一个。遗 
憾的是，这种描述并不是像我们希望的那样清楚。 

样本作泠羊位 


如果是对独立的样本人群进行检验，使用独立样本作为单 
位时 ，一 个单独研究提供的统计检验会不止一个。因此，对强 
奸态度研究的综述者会认为，对同样研究中的男性和女性作的 
统计检验是独立的。 

使用独立样本为单位假设的是 ：最人 程度上的差异是来自 
于同样研究的统计检验，并且是对相同主题进行的数据收集。 
虽然排除了共同变异量，但是存在于研究水平中的其他依赖来 
源却被忽略了。 

当元分析者计算跨单位的平均比较或关系时，测量每个独 
立单位是个很好的做法，根据它的样本暈——可以是一个研究 



102 如何做综述性研究 


内的样本或整个研究的样本（第5章会进一步讨论这种方法）。 
那么，不论研究内或整个研究的独立样木是否作为分析单位使 
用，比重在功能上是等同的。 

比敕作为羊位 

使用独立比较或估计关系强度是确认独立分析单位最开 
放的方法。原始研究者计算的每个单独估计都会被研究综述 
者当作独立估计。这种方法的好处在于它不会£失任何关于 
研究结果潜在调节 fl 的研究信息。缺点在于估计的假设是独 
立的，需要大多数的综述统计结果。在任何有关总的结论的结 
果中，这些研究结果所占的比重也不是相等的。相反，这些研 
究将有助于把与统计检验数量相关的总的结论包含在内。在 
对强奸态度和权力需求研究的例子中，与有一个比较的独立研 
究相比，有四个相关比较的研究将对前者的总体结论产生四倍 
的影响。但这未必是一个很好的衡量标准。 

转换分折羊位 

确认比较的一个折衷办法是使用转换的分析单位。特别 
是最初被编码的每个统计检验就像是一个独立事件的时候。 
因此，一个包括了四个统计比较的单独研究会产生四个单独的 
编码单。每个编码单都有细微的差别，根据各方面的样本、测 
量方法或设计特征的不同以便与统计结果相区別。接着，当一 
个综述的总休累积结果产生了，统汁结果就会被加权，所以每 
个研究或样本对总结果所起的作用都是相等的（或者仅根据样 
本大小而不是统计检验数进行加权）。在所有研究中，包含了 
四个比较的研究已经把得到的结果进行了平均，并把它作为一 
个单个值加人到分析中。 

然而，在检验总体结果的潜在调节量时，仅限于在单独调 
节变量分类的范围内综合一项研究或样本的结果。比如，假设 
一位元分析者选择使用研究作为基本分析单位。如果对强奸 
态度和权力需求的研究，分别描述了男性和女性的相关关系， 
这个研究仅对总体分析提供了一种相关关系——男性和女性 
的平均相关关系——但是两种相关关系分析的是态度持有人 
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的性别对相关关系大小的影响，即一种针对的是女性组，一种 

针对的是男性组。进一步来说，假设这个研究根据性别差异报 
告了强暴迷思 （ rape myth ) 的接受程度和怪罪受害人 （ victim 
blame ) 的不同关系，那么，总共产生了四种相关关系。然后，在 
分析性別对研究结果造成的影响时，两个不同态度等级的相关 
数将被均分。当把态度的类型作为调节量分析时，由于性别差 
异，因此，两个与性别有关的相关数将会被均分为不 N 的等级。 

实际上，转换单位技术确保了对比较和关系强度的影响的 
分析，一项竽独研究可以给每一类的调节变量提供一个数据 
点。这是一个很好的折衷方法，这种方法使研究保留了 M 大的 
信息价值，同时也遵循了独立统计检验的假设。但是这个方法 
也不是完美无缺的。首先，有时创造（或再创造）用于分析每个 
不同调节量的平均效应量会让人感到困惑。其次，对于单独分 
析中的研究结果，当元分析者希望研究对其的多重影响因素 
时，并不是一次只分析一种，分析单位可以很快分解为个体 
比较。 


蜣讨调整 

劳登布什、贝克尔和卡赖恩 （ Raudenbush , Becker & FCalain , 

1988) 曾提出了非独立假设检验的统汁解决方法 （ 同见 Gleser 
& Olkin ,1994) 0 他们创造出一种研究方法，这种方法是建立 
在最小平方回归基础之上，统计凋整了多重研究结果之间的相 
互依赖关系和整个研究中的不同结果数量。综述者拥有相互 
依赖的统计检验关系的可靠数值估计，是成功使用这种方法的 
关键。 

比如，假设与强奸态度有关的一项研究包括了测量强暴迷 
思的接受程度和怪罪受害人的行为。运用劳登布什和他的同 
事们 （1988) 的方法，综述者必须估计这项研究中作为样本的两 
个等级之间的相关关系。原始研究者往往并未给出这类数据。 
如果没有，就需要从别的研究中估计，有时为了获得取值范围， 
可以运行低和高的估计分析。 
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綍述食例 

这四个例证性的研究综述都是使用样本作为基本的独立 
单位。可以根据分析迸行单位转换（变小）。分析与强奸态度 
相关的研究综述归纳了 65个研究报告，包含了对103个独立 
样本进行的72项数据 研究。 原始研究者一共计算了 479个相 
关系数。对于总体分析，使用了 103个独立样本作为研究单 
位，并且所有的相关系数都在样本范围内进行平均。然而，五 
个原始研究者已经把两个等级给了作为同一样本的参与者，所 
以一项关于不同强奸态度等级的平均相关数的差异分析，主要 
是建立在108个相关系数的基础上。 

人际期望效应人格调和的综述展示了 17项研究报告，报 
告里描述了 24项研究，这些研究检验了一张照片在评级情况 
下 （ photo-rating situation ) 的期望效应。一个报吿，一本书，包括 
了 6项研究。这24项研究包括/ 106个相关系数。在一项研 
究中，相关系数的中位数是2,伹在另外4项研究中发现，不同 
的相关系数分别是】0、15、16和18。最重要的分析检验/四种 
类别的实验者人格（社会影响力的需求、表现力、亲切性及其 
他）和三种类别的受试者人格（易受影响性、解读能力及其 
他）。每种类別的每一研究的相关系数都要进行平均。因此， 
在此分析中，共使用了 48个独立（平均）的相关系数。 

评估研究的效度问题 

在本章，我已经讨论过综述者在研究中需要面临的影响效 
度的若干问题。这些威胁涉及原始研究的质量评估、缺失数 
据、检索信息的信度和分析单位的选择。 

首先，除了方法论质量标准外，使用任何一种评估标准来 
排除或评估研究都会对综述结果的效度造成威胁。正如马奥 
尼 （ Mahoney ，1977) 所说，“从某种程度上讲，研究者展示给我 

们能充分理解这一过程的证实性偏差和能够被人们所接受的 
参数可能受到了严重损害” （ P . 162)。 评佔偏差会妨碍我们对 
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研究的理解，承认这一点对我们的研究是有益的。 

其次，原始研究者提供的不完整报告也会危及综述的效 
度。我们已经看到，许多研究报告忽略了对统计检验的讨论或 
仅提供了一些不完整的检验信息。在研究综述中，不完整的报 
告所占的比例越大，围绕着综述结论的置信区间也就越广。 

与此相关的 ，+ 可靠的研究编码结果也会对综述的效度构 
成威胁。大多数情况 K 的编码信度都非常高，但是不能保证所 
有的编码者或编码 T . 作都是这样。 

最后，如果综述者把适用于独立数据的单位计算错了，综 
述结果也会值得怀疑。使用错误的数据会增加独立数据点的 
数量，并且会导致过高估计统计检验的能力。 

保护故皮 

在这一章，我提到了许多增强数据评估阶段结论 nf 信性的 
方法， 包括： 

1 • 综述者应尽最大努力确保存在一些预先的、概念的和方 
法论的判断，这些判断可能会影响综述（而非综述结果） 
里包含或排除的研究的结论。如果研究的是不同的加 
权，那么加权方案必须明确、合理。 

2. 分类研究方法的途径应当尽可能地像许多研究设计的 
特征一样全面、详尽。综述者应该详细地描述与研究结 
果相关的设计特征和分析结果。 

3. 当综述者遇到不完整或有误差的报告时，需要说明清楚 
应该使用什么样的惯例。为了保险起见，应该使用多种 
办法来分析缺失数据。 

4•使用训练力法和评估方法以减少研究中不可靠的信息 
检索。如果町能，要让几个编码者检杳研究。编码者之 
间的认同度应该量化并进行报告。导致意见不一致或 
低可信度的编码应经多方讨论。 

5. 对分析单位的选择，应建立在统计考虑和正在研究的具 
体问题的属性的基础 h 。 综述者应该仔细描述和证明 
所选择的分析单位的合理性。 
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练习 

1. 列出一组你认为是“好的”或“差的”研究标准。按照这 
钱标准对研究质量的影响程度给它们分级。与你的同学比较 
这些标准 和区分 等级。比较你们的列表之间有何异同？ 

2. 和你的同学商定一组标准和评估等级。同时，确定一组 
相同主题的研究。然后在研究中独立应用这些标准。比较你 
列出的分级。它们有什么不同？为什么会产生这样的分级差 
异？在今后的应用中，为了减少差异，应如何修订这些标准？ 

3. 使用同一组研究，再次和你的同学一起记录每个研究报 
告的如下信息 ：（ a ) 样本 M ;( b ) 对抽样人群的 限制； （ c ) 对研 
究质量的总体 评价； （ cl ) 对主要变量感兴趣的比较组（或其他 
数据）的平 均数； （ e ) 是否证实了原 假设； （0 主要感兴趣的推 
论检验的类型和显著性水平。上述标准，你赞成多少，不赞成 
多少？你最不赞成哪些标准？理由是什么？ 


第 5 章数据分祈阶段 


第5章主要介绍了 一些统计方法，这些方法有助于综述者对 
统计结果进行深入的综合统计分析。在这些方法中，有计算研究 
结果的、有进行联合概率推论检验的、有平均效应量的，还有通过 
不同研究来检验效应量可变性的。本章最后总结了数据分析阶段 
的效度问题。 
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数据分析就是将调查者收集到的分散数据点，精炼为对所 
研究问题的综述过程。该过程要求研究者对数据进行排序、归 
类，从而进行概括。正如第1章所述，数据分析要求使用决策 
规则来将系统性数据模式与“噪声”和“偶然波动”区分开来。 
尽管可以采用不同的决策规则，但是该规则应包含两个假定条 
件： 一是在目标总体中“噪声”看起来像什么（例如，正态分布 
误 差）； 二是一种数据必须满足什么标准才被认为是可信的。 
数据分析的目的是将数据转化为能够给出有效解释的形式。 

社会科学研究中的数据分析方法 

正如任何科学调查都要求从具体操作向抽象概念飞跃一 
样，原始研究者和综述研究者都必须使从样本数据中发现的模 
式上升到更为一般的结论，主要用以说明该模式是否也存在于 
目标总体内。然而，直到20世纪70年代中期，在两类研究者 
采用的分析技术方面，几乎没有类似之处。前者被要求构造检 
验统计 fi ， 通过假设检验进行推论，并给出相应的计算结果。 
从更为频繁的意义来讲，原始研究者会 ：( a ) 比较样本化均值和 
标准差或者测度相关关系； （ b ) 对需要实施的与总体样本结果 
相关的推论检验做出 假设； （ c ) 报告与样本误差有关的系统差 
异是否也能够推论样本概率。 

旨在对统计数据进行原始解释的传统统计，并非没有受到 
批评。有些人认为显著性检验的作用没有那么大，因为其只告 
诉我们，当虚无假设成立时，得到该观测结果的可能性有多大 
(例如 ， Cohen ,1994； Oakes ，1986 ) 。这些批评家认为，在许多总 

体中，虚无假设几乎从来不为真，因此一个给定检验的显著性 
主要受样本容量大小的影响。此外，对显著性检验统计量价值 
持怀疑态度的批评家们指岀，许多统计检验涉及的事件总体也 
有一定的局限性。不论一种关系在统计意义上如何显著，研究 
结果仅仅对参加特定研究的参与者具有更为一般的意义。 

对统计量价值的质疑，有助于使用该统汁量的学者改进自 
己的研究方法，从而能够把得到的结果以正确的方式输出出 
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太-。毫无疑问，许多原始研究者应用统计量，如果没有利用统 
计方法提供的帮助（或者说可信性）来对原始数据进行总结， 
那么他们当中有很多人会感到极度不安。 

与原始研究者相反，直到最近的研究中，综述研究者没有 
被要求在他们的数据分析中应用任何标准的统计方法。从传 
统意义上来讲，综述者在解释他们的数据时，可能甚至采用 r 
连自己也不明白的直观的推论规则。综述的分析方法因各综 
述分析者的看法不同而不同。因此，在综述研究中，对有关推 
论的共同规则进行描述是不可能的。 

在文献研究分析中，由于研究中主观性的存在，所以研究 
者可能会对结论有一些置疑。为了解决这个问题，统计方法论 
学家将定量研究方法引入到综述分析过程中来。该方法建立 
在包含在独立研究中的原始研究统计的基础上。 

元分析 

在第1章我曾提到，对综述研究影响最大的两个因 素是： 
研究总量的增於和计算机化研究检索系统的迅速进步。第三 
大影响因素是将定量研究方法即元分析引入到综述研究的过 
程中。 

随着社会科学研究的激增 （ explosion ) ，综述者对标准化研 
究的缺乏给予了极大关注， B 卩如何通过一系列相关研究得岀一 
般性的结论。就许多主题领域而言，对每个相关研究做一种申 
独的语言描述已不再可能。有一种传统策略是从几十个或数 
百个研究中挑出来一两个集中进行研究，但这一策略无法准确 
地描绘知识的累积情况。当然，在许多研究领域，为了使读者 
能够理解原始研究者使用的研究方法，综述者必须描述“原 
型”研究。然而，如果以“原型”研究得出的结论代表所有研究 
的结论，那么，就会严篥误导综述者对研究结论的认识。萏先， 
正如我们已知的，这种选择性关注对证实性偏差是开放 的：综 
述者可能只会强调那些支持他（或她）初始立场的研究。其次， 
在所有研究中，仅仅选择性的关注了其中的部分研究，并且对 
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这些有效检验的测量较少或不精确。对整个结论，他们没有进 
行累积分析，而只是介绍了其中一两个的研究结果，因而对读 
者来说，得出的结论没有说服力。最后，选择关注的证据并不 
能正确估计相关的关系强度。随着与某一主题相关的证据不 
断累积增加，研究者对“有多少”而不是简单地问答“是或否” 
的问题变得更加感兴趣。 

当思考不同的研究结果之间出现的变化时，传统的综述者 
也面临着此种情况下会遇到问题。综述者会发现，研究结果的 
分布共同使用着某一特定程序的特征。他们发现，想要准确归 
纳出程序的变化是否会影响研究结果这一问题并不是一件容 
易的事，因为使用任何单一方法所导致的结论变化意味着采用 
不同方法得出的结论分布会出现重叠的部分。 

这样看来，在许多情况下，综述者们不得不借助于定量分 
析方法。综述研究采用的定量推论程序是对日益增多的文献 
资料的必然反应。如果统计量运用得当，就可以增强综述结论 
的有效性。定量综述研究是同一推论规则的延伸，它需要在原 
始研究中进行严格的数据分析。如果原始研究者必须详细说 
明数据和他们的结论之间的定量关系，以后的数据使用者也应 
该进行说明。 


元分斬简史 

20世纪初，卡 尔. 皮尔逊 （Karl Pearson ，1904 ) 对一种伤寒 
疫苗是否适合使用进行了检验。他从11个相关研究中搜集数 
据，然后计算出了每一项研究的最近发展统计，称之为相关系 
数。根据结果变量的不同，他把研究分成两组，然后对两组研 
究的治疗效果的测量值进行平均。在平均相关关系的基础上， 
皮尔逊总结出其他疫苗的治疗效果更好。这就是我们知道的 
最早的定量综述研究。 

吉恩 • 格拉斯 （Geme Glass ，1976 ) 介绍了“元分析”这一术 

语，说明了从个别研究中“为了综合研究结论的目的” （ P . 3 ) 对 
结论进行的统计分析。他 （ Glass ，1977) 写道，“……研究的累 
积成果，应该被视为是复杂的数据点，与一项单独研究中的数 
百个数据点相比，如果不对这些复杂的数据点进行统计分析， 
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它们就更难于理解 。” （ P .352)。 早在1976年以前的统计文本 
和文章中，就出现了元分析研究方法的应用 （ Fisher ,1932; Pear- 
son ，1933; 若想回顾，参见 Olkin, 1990) ，但是应用的案例非常 
少。如今，不断扩充的数据库和对综述研究日益增多的需求推 

动了元分析方法的普遍使用。 

在皮尔逊 （ Pearson ,1904) 所作的研究综述 75 年之后，罗森 
塔尔和鲁宾 （ Rosenthal and Rubin ，1978 ) 也做了 一 项研究综述。 

他们研究了人际期望在实验室、教室和工作场所等地方对人们 
行为的影响。他们找了 345 个（而非11个）适合他们假设的研 
究。儿乎同时，格拉斯和史密斯 （Glass & Smith ，】 978b) 做了一 
次班级人数与学习成绩之间的关系检验。他们约从 900 000 名 
学生的数据中找出 f 725 个（而非 345 个）关系的估计。史密 
斯和格拉斯 （Glass & Smith ，1977 ) 也收集了一些有关心理疗法 

效果的评估。文献里说明了 833个治疗检验。亨特、施米特和 
亨特 （ Hanter，Schmidt ， and Hunter ， 1979 ) 展示了 866 份比较，主 

要说明了黑人雇员和白人雇员就业测验的区分效度。 

每个研究小组都得出了一个不可回避的结论：传统研究综 
述的时代已经结束了。三个小组分別重新发现和使用了皮尔 
逊解决问题的方法来解决他们遇到的问题。很快，他们有了新 
的加入者，其中就有莱特和彼莱玛 （Light & Pillemer ,1984) 0 

莱特和彼莱玛编写了一本书，集中阐述了综述研究在社会政策 
领域的应用。赫奇斯和奥肯 （Hedges & Olkin ，1985) 还 提供了 

严格的统计证明，从而使得元分析作为统计科学里一种独立的 
研究方法的地位确立下来。我建议，研究综述过程应被概念 
化，从而能够与原始数据搜集采取的方式相同，同时还要坚持 
科学严谨性的同一标准 （Cooper ,1982)。 

元分析也并非没有批评者，并且有些批评现在仍然存在。 
定童分 析的价值也一直受到质疑，正如对原始数据分析的质疑 

一•样（例如， Barber ， 1978 ; Mansfield & Bussey ，1977 ) 。然而，很 

多对元分析的批评，与其说是对其本身，不如说是对更普遍意 
义上不合理的综述方法的批评。比如说操作细节的缺乏，这也 
被 误认为是使用定量研究方法的“副产品” （ MCooper & Ar - 
kin ，1981) 0 
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有证据表明，元分析现在已经成了被大家所接受的方法, 
并且在社会科学和医学领域的应用在继续增加 （Mann ，1990 ) 。 
格林伯格和福尔杰 （Greenberg & Folger ，1988 ) 宣称，“如果有迹 

象表明当前的研究者对元分析方法感兴趣，那么就使用它。” 
( P . 191) 


何时不做元分斬 


本章将用较大篇幅描述一些基本的元分析程序及其使用 
方法。最重要的是明确指出了，在哪些情况下综述里使用定量 
分析方法是不恰当的。 

首先，定量研究方法仅适用于研究综述而不适用于有其他 
重点或冃标的综述（见第1章）。例如，如果综述者对追溯“自 
我实现预言”这一概念在历史上的发展轨迹感兴趣，就没必要 
作定量分析。对于人际期望效应的不同定义是否会导致“自我 
实现预言”发生的不同可能性，如果综述者打算对此进行推论， 
那么定量分析总结相关的研究是很有必要的。 

其次，在研究综述中采用统计数据的基本前 提是： 一系列 
的研究都服务于同一概念假设。如果这一主张没有包括在综 
述的前提内，那么就没有必要采用累积的统计数据了。同时， 
对于比读者会发现有用的更广泛概念水平上的研究，综述者不 
应该进行定量合并。事实上，作为检验一个单独的概念假设， 
大部分的社会科学研究都可以进行归类——社会刺激影响人 
们的行为。的确，从某种意义上讲，这样的假设检验可能颇具 
启发意义。但是，这并不能作为把大量的概念和假设放在一起 
使用的一个理由，综述的使用者不能忽视它们之间的区别，这 
一 •点 是非常重要的（见 Kazdin，Durac & Agteros , 1979，关丁这个 

问题的“灰色处理”）。例如，关于人际期頦效应中人格调和的 
综述提供了一个例子，说明了什么时候进行研究的定量合并是 
可能的，但并不是有利的。综述者找到了用于检验广义概念假 
设的33份研究。其中有24份检验了实验者对照片等级目标 
的期望效应，有6份在其他的实验情境中使用，1份在教学环境 
中使用，还有2份是在模拟治疗环境中使用。综述者没有把以 
上所有这些研究都综合在一起，只是对照片等级目标的研究进 
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行了元分析。在更广义层面实验背景下得到的累积结果和基 
于此累积结果基础上声称的生态普遍性可能会误导人们，因为 
在所有的比较中，超过了三分之二的比较是在一种特定环境中 
进行的。 

另一个说明了不宜做作定量分析的例子是酒精与攻击性 
的综述。在这个综述里，分别分析了两组比较 ，一 •组是酒精勻 
无处理控制的比较，另一组是酒精与安慰剂控制的比较。即使 
这两组都比较评佔了酒精的影响，但如果把它们合在一起使 
用，显然无法提供有益的信息。当假设里包括了控制比较时， 
综述者会发现，对控制类型的区分是很重要的，这样，在定量分 
析里使用的控制比较就不至于模糊不清了。 

综合综达结果的故术的彩响 

尽管很难佔计传统综述研究和定量综述研究的相对效度， 
库珀和罗森塔尔 （ Gooper & Rosenthal ，1980 ) 却阐述了它们之 

间的客观差异。在这一研究中，他们要求研究生和大学老师评 
估一份文献的一个简单假设，假设的内容是：在“工作坚持”方 
面是否存在性别差异？所有的综述者都评估了同样的研究，其 
中一半的综述者采用了定量分析方法；而另一半采用了他们所 
青睐的任一标准。在后一种情况下，没有人选择使用定量分析 
方法。作者发现，与非统计综述者相比，统计综述者更支持性 
別差异假设和变量间的较大关系。同时，尽管这一结果没有达 
到统计显著性程度，统计综述者往往认为，日后非统计综述者 
对这一结果的重复使用（ replication ) 也是必不可少的。 

由于定量综述研究者采用了不同的统计程序，因此他们的 
综述结论也可能会有所差别。在带有参数模型的定量分析研 
究中，已经出现了一些不同的范式 （Hedges & Olkin , 1985； 
Hunter & Schmidt , 1990； Rosenthal ,1984), 而其他的范式可以和 
贝叶斯定理 （Bayesian Perspective ) ― v 起使用 （Louis & Zelter - 
man , 1994 ； Raudenbush & Bryk ， 1985 ) 。在研究过程中，进行这 

样的研究有很多行之有效的方法，通过使用这些方法，可以合 
并独立研究的概率，来计算总体研究的概率（见 Becker , 1994 ) Q 
在某种程度上，使用不同的方法产生的概率水平也会有所不 
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同，同时，不同的综述者之间进行定量分析采用的规则也不同， 
这就造成了他们在如何解释综述结论上的差异。我们可以假 
设非定量研究综述者采用的规则也是不同的，再加上它们性质 
不明确，因而正式比较起来较困难。 

主效应和交互作用分析 

在检验综述者使用的一些定量研究方法之前，仔细察看累 
积研究结果的一些特性是十分重要的。在问题形成一章中，我 
指出了许多综述研究都会首先关注主效应的检验。这主要因 
为，与三个或者更多的交互变量的检验相比，与主效应概念相 
关的重复使用出现的更为频繁。当然 ，一 旦综述者察觉到主效 
应关系是否存在，他们下一步的研究会转向检验这种关系的潜 
在调节量或者交互效应。 

在综述研究中，有关相同比较或关系的独立检验结果各不 
相同，这是主效应和交互作用二者最明显的特征。这种变化有 
时非常显著，我们需要知道它源自何处。 


主故启袷验中的支弄性 

主效应检验结果中的差异主要受两方面的影 响：一 种是最 

简单，也是经常最容易被忽视的——抽样误差。甚至在定 M 综 
述研究流行之前，塔维杰 （ Taveggia ， 1974) 已经意识到了这一因 

素产生的重要 影响： 

一个……评论作者忽略的方法论原则是 ：研究 结果是 
随机的 （probabilistic ) 。这一原则表明，在这些研究结果 
中，任何单个研究的结果是毫无意义的——它们可能只是 
偶然发生的。同时，对于某一特定的主题，如果有大量的 
研究人员进行了研究，这种“偶然性”决定了在研究报告 
中会存在一些不一致甚至是互相矛盾的研究结果！因此， 
似乎是矛盾的结果，可能只是研究结果分布中的一些积极 
或消极的细节问题引起的。 （ pp .39 7 -398) 
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塔维杰强调说明了一种利用概率论和抽样技术来推论总 
体的方法。 

例如，假定测量每一个美国学生的学七成绩是可能的。同 
时也假定进行测量后，发现做家庭作业的学生和不做家庭作业 
的学生的学习成绩正好相等——也就是说，这两个总体中的组 
均值正好相等。然后，抽取容量为1 000份的样本，其中包括 
50个做家庭作业的学生和50个不做家庭作业的学生，经研究 
发现，只有少些样本能得出相等的组均值。进一步来说，如果 
使用 P < 0.05 的显著性水平（双尾）进行统计抽样比较，大约 
有25个比较支持做家庭作业的学生并呈现出显著性差异，大 
约有25个比较支持不做家庭作业的学生。 

这种结果上的变异是不可避免的，因为由样本估计得来的 
均值会与真实的总体值之间有一些出入。因此，只是偶然地， 
有些比较会将大量的与它们真实的总体值相反方向上+同的 
样本估计进行配对。 

在以上假定的例子中，综述者不可能愚蠢到不考虑“偶然 
波动”的影响，而认为是别的因素导致 f 这一结果——毕竟， 
950个比较能够揭示无效效应，而显著性结果在两种可能结果 
中的分布是相等的。然而，实际上，结果的形式很少有这么清 
楚的。首先，正如我们在文献检索一章中发现的，综述者可能 
并不知道所有无效的结果，因为它们很难被发现 3 此外，即使 
总体关系确实存在于两个变 M 之间（例如，虚无假设是错误 
的），有些研究仍然能在与总体结论相反的方向上显示显著性 
结果。继续以这一例子进行说明，如果做家庭作业学生的平均 
成绩高于不做家庭作业的学生，其中的一些样本数据仍然会支 
持不做家庭作业的学生，这一数量取决于相关的关系大小及进 
行比较的多少。总之，由于抽样估计的不精确性而引起的“偶 
然波动”可能是研究结果发生变异的来源之一。 

综述者对主效应中的第二个变异来源更加感兴趣。这种 
结果上的差异主要是由研究如何进行或参与研究的主休是谁 
这两方面造成的。第2章引入了“综述产生的证据”这一概念， 
用来描述我们发现研究特征和结果之间的联系时，所能了解到 
的东西。比如，有关家庭作业研究的综述者可能发现，对做家 
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庭作业的学生和不做家庭作业的学生成绩的比较研究是在中 
学生或小学生中进行的，他们是以班级年级 （class grades ) 或者 
是标准化的测验作为衡量成绩 的尺度 ，并且衡量的是数学课和 
英语课的成绩。如果研究中的每种差异与做多少家庭作业能 
够影响学生的学习成绩这一问题相关，那么，这些差异可能就 
会造成研究结果的系统变异。 

研究结果中存在的这两种变异来源，使综述者处于一种非 
常有趣的两难境地。当所谓的自相矛盾的结果出现时 （ 它们总 
是会出现），综述者是否应该试着查明在研究中使用的方法的 
差异并对此做出解释？或者综述者是否应该只是假设是由抽 
样误差产生的“偶然变异”造成了这些互相矛盾的研究结果？ 
一些已经设计出的测试会帮助综述者解答上述问题。实际上， 
这些测试使用“抽样误差”作为虚无假设。如果研究结果的变 
化太大以至于不能用抽样误差来解释，那么综述者就应该知道 
去其他地方寻求答案了——即研究之间的方法差异或实质性 
差异。我会在后面讨论这些，但现在应该提醒我们注意 的是： 
在研究结果中，这两种明显的变异来源是综述者必须加以考 
虑的。 

文互作用检验中的支异牲 

显然，在主效应检验中产生的变异性也会影响交互作用检 
验中的变异性。交互效应和主效应一样，在抽样误差和程序性 
变异方面也容易受到影响。然而，在分析综述研究的交互作用 
时，介绍了一些独特的问题。为便于介绍，我将使用双向互动 
( two-way interactions ) 测试来讨论这些问题，同时这些概括说明 

对高阶的交互作用也是适用的。 

图 5.1 展示了两份交互作用的假设研究结果。在研究 I 
中，对两组学生掌握的资料数量进行了分 析：给 一组学生布置 
家庭 作业； 作为可替代的处理措施，另一组接受了在校监督学 
习。 K 面，我将做家庭作业组与在校学习组进行了比较，主要 
比较的是第一周和课程结束后第七周的情况。 

在第一周，做家庭作业的学生掌握的资料少于在校学习的 
学生。但是在第七周，做家庭作业的学生掌握的资料要多于在 
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图 5. 1比较家庭作业和课堂作业的两个假设研究的结果 

校学习的学生。这就说明，在学习过程中，不同处理方式的效 
果实现了向相反方向的转变。 

假设研究 n 使用了同样的处理方式和类似的研究设计。 
在第一周，做家庭作业的学生掌握的资料少于在校学习的学 
生，但到了第五周，这两组之间就没有什么显著差异了。不同 
处理方式的影响在第一次和第二次测景之中“消失”了，并没 
有实现向相反方向的转变。 

这两项研究结果可能会使综述者得岀这样的结论 ：这两 
个研究产生的结论不一致。毕竟，研究 I 表明，最初，在校学 
生的学习效果更好，但是随着时间的推移，这些学生的学习 
效果就不如做家庭作业的学牛了。而研究 n 证实没有起反作 
用的效果，在这两种学习方式中存在的差异会逐渐消失。进 
一步分析这两个图，就能说明为什么可能不适合得岀这样的 
结论，即研究是不一致的。如果在第五周进行测暈，研究# 
会发现研究 I 和研究 n 的结果很接近。同样，如果研究 II 的 
研究者一周进行了七次测量，那么他们也会得出和研究丨相 
类似的研究结果。 

总地来说，当研究者发现了只在一个交互变量的水平上出 
现的实验效应时，他们可以推测得知在更广泛水平上对变量进 
行的抽样是否会导致出现逆转效应。然而，综述研究者可能有 
机会更加自信地得出这样的结论。正如案例所表明的，在不同 
的研究中，综述者会发现有关交互作用的不同形式或强度，但 
这并一定意味着他们会得到不一致的研究结果。相反，他们应 
该分析不同研究中使用的不同变量水平，并且，如果可能的话， 
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用图表的形式把不同水平上的研究结果展现出来。用这种方 
式，综述研究的一个“好处”就实现了。尽管一项研究可能表 
明，随着时间的推移，处理上的差异消失了，而另一项研究可能 
表明了效应的自我逆转，实际上，综述研究者会发现这两项研 
究的结果其实是完全相同的。 

图 5.1 可以用来突出强调研究产生的证据和综述产生的 
证据之间的区別。首先，图里描述了研究产生的证据是否与处 
理效应和测量时间之间存在的交互作用有关。每个研究都把 
有关这一关系的证据包含在内。同时，图里也显示了不一致的 
研究产生的证据 ，一 项研究表明了差异的消失，而另一份表明 
了差异的逆转。因此，可以用综述产生的证据来解释存在的这 
种不一致性。我们可以依靠有关研究特征的信息、处理方法和 
测量时间之间的区间长度，帮助我们解决遇到的问题。 

综述研究的这一优势也强调了在原始研究者的研究中所 
描述使用的、有关变量水平的详细信息的重要性。没有具体的 
信息，综述研究者可能无法进行一项与之前介绍的相类似的交 
叉研究分析。如果研究 I 和研究 n 中的原始研究者忽 略了说 
明两种测量之间的时间差长度——可能指的是两种测 M 之间 
的时间间隔，比如说“间隔短”或“间隔长”，这样，就不能说明 
结果的可通约性 （ commensurability ) 了。 

综述研究者还必须仔细检查与交互作用报告一起使用的 
统计分析。比如，在所有其他条件都相同的情况下，与研究 n 
的研究者相比，研究 I 的研究者更有可能报告测量时间和方法 
之间的显著交互作用。而事实上，假设误差项相同，研究 I 中 
有关交互作用的 f 值应该比研究 n 的大好几倍。因此，对综述 
者而言，检索有关交互作用的详细数据，而不论其统汁显著性 
如何，是极其重要的。当然，问题是，除非交互作用是原始研究 
者的主要关注点，或者除非交互作用被证明是显著的，否则，在 
报告里，像图 5.1 中包含足够多的详细信息进行分析的几率是 
非常小的。 

元分析中的文互作用 

对元分析中的交互作用进行统计合并是件非常复杂的工 
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作。事实上，综述者极少合并分析相同交互作用的统计研究结 
果。部分原因在于对同一交互作用进行检验的研究很少发生， 
部分在于许多交互作用的检验报告是不完整的。 

对整个研究中的交互作用进行统计合并有两种不同方法。 
一种方法是将与每一研究的交互作用检验相关的单独 p 值和 
关系强度汇总起来。另一种方法是在第三变董的每一水平上， 
分别综合两个变量的关系。举例来说，通过综合一个星期后所 
有的测量结果，然后把这一结果与七个星期后的综合测量结果 
做一比较，对家庭作业进行研究的综述者就可以估计做家庭作 
业的学生和在校学生的差别。与直接估计交互作用的效应量 
相比，这可能更有用，也更容易解释。不过，这样做的前提是， 
原始研究报告里必须包含需要“分离”的不同简单主效应的 
信息。 

合并独立研究结果显著性水平的方法 

在此部分和接下来的部分，我将简单介绍一些综述者可利 
用的定量分析方法。之所以选择这些方法，是因为它们比较简 
单且应用广泛。在此，对每种处理方法的介绍将是概念性的和 
介绍性的。如果读者想知道对这些方法和其他许多方法更多 
完整的描述，可以参考本书里引用的原始文献。在下面的讨论 
中，我假设的是，读者对社会科学里使用的基本推论统计已有 
了基本了解。 

对于基于个体统计结果累积基础上的结论的效度，有三个 
至关重要的假设 条件： 

首先也是最明显的一条是，用于累积分析的每一个单独结 
果必须检验的是相同的比较，或者估计的是相同的关系。在概 
念上，不管综述者们的想法是多么的“广泛”或者“狹隘”，他们 
都主张所有的统计检验应该致力于解决相同的问题。 

其次，用于累积分析的单独检验必须是相互独立的。在第 
4章，我已经讨论过如何确认独立比较。为 f 使每个比较都包 
含相关假设的独特信息，元分析者必须注意确认比较。 
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最后，综述者必须相信，原始研究者在计算检验结果时做 
了有效假设。因此，如果综述者想合并与一系列的£检验比较 
相关的概率，那么，他们必须假定两组的观察值、残差或误差是 
独立的、符合正态分布的 a 方差大致相等。 

在综述研究中应用统计方法的一个原因是，它可以合并与 
单独检验比较或关系相关的显著性水平。这样做，就能产生一 
个与分组差异或关系相关的总体概率。例如，如果发现对某一 
关系做的三次检验得出了统计显著性结果，而另外七次检验得 
出了统计非显著性结果，那么，综述者能够得出什么样的结论 
呢？他们可以使用合并显著性水平的方法计算出大量检验的 
结果，从而得出总体结论。 


讨票法 

合并独立统计检验的最简单方法是计票法 （ vote-counting 
methods )。 计票法可以把统计显著性结果考虑在内，也可以只 
关注研究结果的方向。 

第一种方法，对于每一个研究结果，综述者都可以将其归 
入到以下三类的某一类 中：预 期方向上的统计显著性结果（被 
称为正向研究结果）、不可预期（负向）方向的统计显著研究结 
果及非显著研究结果（比如那些不允许拒绝虚无假设的研究结 
果）。山此，综述者可以断定，研究结果数量占最多的那一类就 
能够说明 H 标总体里的关系发胰方向。 

这一计票的显著性结果有直观上的吸引力，因此也被广泛 
使用。然而，这种方法也有令人难以接受的保守性。问题在 
亍，在错误地显示显著性效应的研究结果里，由偶然因素产生 
的研究结果应该大约只占其中的5%。所以，根据研究结果的 
数量，只有不到1/3的正向统计显著性结果，可能表明了目标 
总体的真实差异。但是在计票法中，在期望结果实现之前，要 
求至少34%的研究结果是正向且统计显著的。 

赫奇斯和奥肯 （Hedges & Olkin ，1980) 证明了这种方法的 

保守性。假定总体中的两个变童之间的相关关系系数 r = 
0. 30,而且在每个样本中，已经对40个人进行了 20次抽样。 
如果使用之前描述的标准，由计票法计算出正向关系存在的概 
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率将小于 6%。 因此，计票的显著性结果会导致综述者经常建 
议放弃假设（和有效的处理程序），事实上，这样的结论是没有 
保证的。 

调整三种研究结果的期望频宇•，而且将不相称的大量预期 
非显著性研究考虑在内，这虽然解决 r 统计上的问题，但同时 
又导致了另一个实际问题。我们已经看到，研究者可能很少报 
告无效结果，并且它们被综述者检索到的可能性也比较小。因 
此，在计票分析中，如果使用适当的理论值，与预期的研究结果 
相比，正向显著性研究结果和负向显著性研究结果将出现的更 
加频繁。因此，看来在计票程序中，使用非显著性研究结果的 
频率数是个可疑值。 

一 种替代计票法的方法是比较统计显著性正向研究结果 
与统计显著性负向研究结果的频率。这一方法假定，如果虚无 
假设在总体中占主导地位，那么显箸性正向研究结果与显著性 
负向研究结果（第 I 类错误）的频率预计是相等的。如果发现 
研究结果的频率不相等，支持主导方向的虚无假设就会被 
拒绝。 

这种计票法的一个问题是，即使当虚无假设不是真的，期 
望的非显著性研究结果的数量依然远远大于期望的正向或负 
向显著性研究结果的数量。因此，这种方法会忽略许多研究结 
果（所有非显著性结果），并且在统汁力上也相对较低。 

在综述研究中，计票的最后一种方法涉及计算正向和负向 
研究结果的数量，而不管它们的统计显著性如何。在此分析 
中，综述者可以根据研究结果的方向对它们进行分类。与之前 
一样，如果虚无假设为真，也就是说，如果抽样总体中的变量之 
间不存在关系，我们期望每一方向的研究成果的数 a 是相 
等的。 

一 旦计算出来每一方向上结果的数量，元分析者便可以使 
用符号检验，用以发现累积的结果是否能表明，在研究结果一 
个方向上岀现的频率比偶然波动出现的频率高。计算这一符 
号检验的公式如下： 
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(A r p ) - ( 士 AO 



这里 

及<.=总的一系列研究结果的标准 IH 态离差或 z 分数； 

N p =正向研究结果的数量； 

/V =研究结果的总数（正向研究结果加负向研究结果）。 

使用一张标准正态离差表，我们可以查看值，就会发现 
与一组累积的定向研究结果相关的概率（申尾）。如果双尾的 
P 值是理想的，则提交的值就要翻倍。表 5.1 总结了与不同的 
P 值相关的 Z 值。不论是在所有研究结果的简单方向上还是 
仅是在显著性研究结果的方向上，都可以在计票中使用这一符 
号检验。 

在36份比较中，假设有25份比较发现，最近喝过酒的人 
群比使用安慰剂的人群更具攻击性。又假设在^ < 0.02( 双 
尾）、相关的 A 值是 2.33 时，目标总体中的人群会显示出相同 
的攻击性，而此时，许多研究结果的概率将在一个方向上。这 
一 结果会使元分析者总结出一个结论，即一系列的比较支持的 
是正向关系。 

显著性的优势在于能够使用从所有统计结果中得出的信 
息，而计票法则不顾这一点，使用了研究结果的方向。然而，就 
像其他的计票，它不是通过样本容 童来衡 景某一研究结果的分 
布。因此，对】00个参与者与对1 000个参与者进行测量的研 
究结果是相同的。进一步来讲，在每一研究结果中，没有把发 
现的比较或关系的大小（或者进行评估处理产生的影响）考虑 

在内-项研究结果表明，酒精导致攻击性的大量增加和酒 

精导致攻击性的少量减少二者的测量结果相同。最后，定向计 
票中的一个实际问题是，原始研究者不会频繁地报告结果的方 
向，特別是如果一个比较被证明是统计非显著的时候。 

定向研究结果的计票也能作为其他元分析方法的有益补 
充，甚至也可以用来估计一种关系的强度。假设元分析者知道 
( a ) 研究结果的数量， （ b ) 每项研究结果的方向， （ c 〉每项研究 
结果的样本大小，布什曼和万 （Bushman & Wang ， 1995 ) 给他们 
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表 5.1 标准正态离差分布 


0.995 

0.005 

0.0025 

2.807 

0.99 

0.01 

0.005 

2.576 

0.985 

0.015 

0.0075 

2.432 

0.98 

0.02 

0.01 

2.326 

0.975 

0.025 

0.0125 

2.241 

0.97 

0.03 

().015 

2. 170 

0.965 

0.035 

0.0175 

2. 108 

0.96 

0.04 

0.02 

2.054 

0.954 

0.046 

0.023 

2.000 

0.95 

0.05 

0.025 

1.960 

0.94 

0.06 

0.03 

1.881 

0.92 

0.08 

0.04 

1.751 

0.9 

0. 1 

0.05 

1.645 

0.85 

0. 15 

0. 075 

1.440 

0.8 

0.2 

0. 10 

1.282 

0.75 

0. 25 

0. 125 

1. 150 

0.7 

0.3 

0. 150 

1.036 

0.6 

0.4 

0.20 

0.842 

0.5 

0.5 

0. 25 

0.674 

0.4 

0.6 

0. 30 

0.524 

0.3 

0.7 

0. 35 

0.385 

0.2 

0.8 

0.40 

0.253 

0. 1 

0.9 

0.45 

0. 126 


7= 和 z 之间的区间 

=置信系数 

oc r =+( 1 _ 7 ) 

以上的区间 
= - z 以上的区间 
=单侧检验的显.著性水平 

a" = 1 - 7 -2a 

= -2 和 z 之外的区间 
=双侧检验的显著性水平 


资料来源： Noether ( 1971 ). Houghton Mifflin 公司经过许可在1971年获得版权 ft 印。 
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提供了一种估计总体相关关系大小的公式和表格。例如，假设 
在酒精组和安慰剂组的36份比较中，每份样本容量包括50名 
参与者。使用布什曼和万的表格，在36份比较中，我发现有25 
份（69% ) 指出了酒精组在具有更多的攻击性时，群组成员与攻 
击性之间的相关关系最可能的总体值 r =0. 07。 

总之，通过比较简单定向研究结果或显著性定向研究结果 
的数量，使用计票方式，元分析者就可以汇总个人的研究成果。 
这些程序都是非常不准确和保守的——也就是说，它们会丢失 
本來存在的关系。在第一种情况下，简单的结果方向一般不会 
在许多研究报告中出现，并且非显著性研究结果对第二种情况 
下进行的分析也不会有所帮助。在元分析中应该描述计票，但 
是只有当存在大量的研究时，才可以使用它们引出推论。另 
外，它们也应该始终伴随着敏感度更高的元分析程序一起 
使用。 


合并罝著性水平 


一种处理计票存在的缺点的方 法是： 考虑合并与每一个比 
较结果或关系估计相关的准确概率。贝克尔 （Becker ,1994；也 
可见 Rosenthal , 1984) 归纳了 16种合并推论检验结果的方法， 
采用这一方法，我们就可以得到关于虚无假设的总体检验。通 
过使用准确概率，合并分析的结果说明/在每个比较中发现的 
不同样本容量和关系强度。 

在这16种方法中，使用最频繁的方法称之为加 Z 法。斯 
托福和他的 N 亨们 （Stmiffer et d . ，1949 ) 最先介绍了这种方法。 
加 Z 法的使用公式 如下： 


这里 


Z 


1=1 

| _ ■ 

/N 


(5.2) 


=总的一系列研究结果的标准正态离差或 z 分数; 
= ith 研究结果的标准正态离差； 

N 二 该系列中研究结果的总数。 


实施这一分析步骤是十分简单的。综述者 必须: 
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1 •选择研究结果的方向（正向或负向）。 

2. 记录与每个研究结果相关的概率。 

3. 如果是双尾的，平分报告的概率。 

4. 查找与每一概率相关的 Z 分数。 

5•对 Z 分数进行求和，记得在负向研究结果前加一个 
减号。 

6. 用这一总和除以研究结果的平方根。 


然后，就吋以在一张标准正态离差表里找到作为结果的 
A 值（见表 5. 1) ，从而确定与累积的个体概率相关的概率。如 
果双尾概率是理想的，则表中的 P 值就要翻倍。如果目标总体 
中的虚无假设为真，这一概率则描述了如下一种可能性，即合 
并山偶然因素产生的包括在分析中的一系列结果。表 5. 2展 
现了加 Z 法的假设应用。需要注意的是，我已将研究2和研究 
7的假设结果设置为确切的无效结果。我假设这两项研究只 
是报告了与显著性水平不相关的“非显著性”结果。研究1和 
研究5产生了统计显著性结果，而研究4产生了与预期相反的 
结果。 

我们也可以对加 Z 法进行修改，从而可以使元分析者能够 
分别衡量不同的统计检验的结果。例如，如果一些研究结果来 
白于一个单独研究，与其他研究中唯一的研究结果相比，元分 
析者可能很少衡量这些研究结果。 同时， 对于那些包含样本量 
较大的研究结果，元分析者可能需要对其进行加权（合并 z 分 
数已经受到了样本容量的影响，因为样本容量影响了显著性水 
平 ）。 

加权加 Z 法的公 式是： 



= 加权合并研究结果的 Z 分数； 

% =与每一研究结果相关的加权 因子； 以及所有其他项的 
定义和以前一样。 
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表 5. 2合并八个研究结果的一个假设案例 


研究参与者数量 


结果 




(O 


单尾的 P 水平 


相关的 
2分数 


Z 



286 


11 684 


4.77 


268 . 96 


4.77 


Adding Z s ： Z u = = 1 • 69 ，p < 0. 0461 ， 单尾 

78 

Adding Weighted Zs：Z = 2 68. 96 = 2. 49，p < 0 

A 1 684 



，单尾 


N 


/.V 


4, 77 
lT 645 


8 =0.41 (or 1) 


注释 :0. 90 的单尾 p 水平值是来自于与预期方向相反的一个研究结果（因此，相关 


分数为负）。 


表 5. 2介绍了加权加 Z 法的假设案例和作为研究样本大 
小的加权因子。 

这种合并显著性水平的方法克服了计票中不适当的加权 
问题。然而，它本身也有严格的限制。首先，计票程序过于保 
守而合并显著性水平程序作用非常大。事实上，它的作用实在 
是太大，对于产生的大量检验的假设或处理，拒绝虚无假设很 
可能让它变成一项毫无信息价值的训练。 

失政妥全教 

之前多次提到，综述者不可能均等地检索到所有的研究结 
果。综述者检索到非显著性研究结果比显著性研究结果的可 
能性要小。这一事实意味着，加 Z 法可能产生了一个概率水 
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平，而这一概率水平对类型 l 中由偶然因素导致的错误估计不 
足。罗森塔尔 （ Rosenlhal ，1979 a ) 写道： 

对这一问题的极端看法是 . 期刊上充斥着 5% 的显 

示着类型1错误的研究，而实验室的文件夹抽屉里塞满了 

95% 的显示非显著性结果的研究（例如， p < 0. 
05)。 ( p .638) 

这一问题可能没有如此富有戏剧性，但它的确存在。 

加 2 法的优点之一 •是它 可以计算失效安全数 （ Fail-safe N ) 
(见 Cooper ,1979； Rosenthal ,1979 a )。 失效安全数回答 了这一 

问题，“为了改变一种存在关系的结论，在可检索到的研究结果 
的结论中，必须加人多少虚无假设确认（例如， =0) 的研究 
结果？ ”罗森塔尔 （ Rosenthal ，1979 a ) 称之为“未来无效结果的公 

差”。当选择的显著性水平是 p <0.05 时，计算这个数值的公 
式是 


^ FS. 05 = ( ， g I * | - /V (5. 4 ) 

W .645 / 

这里 

=需要将联合概率略提髙到/ ><0.05 以上时，额外的 
总的虚无研究结果的 置值； 

1.645 =与^><0. 05( 申尾） 相联系的标准正态 离差； 所有 

其他数量和以前界定的一样。 

■ 

显然，当研究结果的加权不相等时，就不能计算失效安全 
数，除非综述者希望估计不能检索到的研究结果的加权平均数 

是多少-最好是不确定的估计。表 5. 2描述了一个失效安 

全数的假设例子。 

失效安全数是一个很有价值的描述性统计量。根据这一 
统计量，综述使用者依据综述者对 Li 检索到的文献的详尽程度 
进行的评估，就可以评估综述的累积结果。然而，失效安全数 
也包含了一个限制其效度的假设。那就是，它的使用者必须找 
到一个可靠的命题，即没有检索到的研究相当于一个确切的无 
效结果。此时，可能出现的情况是，没有检索到的研究的累积 
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结果与元分析中包含的结果相反。同时，没有检索到的研究对 

新增结论的支持会累积增加，主要是因为综述者忽略了与现在 

的信息渠道平行使用的那些渠道。所以在解释失效安全数时， 

综述使用者应该经常评估这些可选方案的合理性。 

综述者和读者可以得出以下结 论：即 一个研究结果与没有 

检索到的尤效结果相抵抗，此时的失效安全数是多大呢？罗森 
塔尔 （ Kosenthal , 1979 b ) 认为抵抗数 （resistance number ) 等于可 

检索的研究数的5倍加10。因为没有直观明显的固定规则，所 
以每次使用这个公式时，综述者必须再次表明他们主张的研究 
结果的抵抗性。一项抵抗性研究结果的最佳论据是一个大的 
失效安全数加上全面的搜索策略。 

綍述素例 

在实验室实验里，人际期望效应的人格调和的综述计算了 
五个合并的 Z 分数和概率，五个相关的人格维度。使用研究作 
为分析单位，每个研究的加权是相等的。研究结果表明，那些 
对社会影响力有较大需求的实验者更有可能产生人际期望效 
应。基于四项研究基础上计算出来的合并 z 分数是 2. 94,相关 
值是 0.003 2( 双尾）。失效安全数，即需要将联合概率提高 
到 P = 0. 05以上时，总的虚无研究结果的最值为 10. 02，或者11 

(因为十个研究正好低于/ >=0.05 以下）。 

对实验者的表现力 （ expressiveness ) 和亲切性 （ likability ) 的 

检验，表明了实验者偏向的非显著性关系，尽管在两种情况下 
的关系是正向的（对于表 现力 ： yv = 3,4 =】.79 ,/><()• 073 4 ,双 
尾； 对于亲切性.^ = 4,1 = 1.71 ，/> <0.087 2,双尾）。受试者 
的易受影响性和解读能力，二者都与期望效应呈正相关（对于 
易受影响性 = ，心 =2.21 ，p <0.015, 双尾； 对于解读 能力； 
N =1人 =2. 60,/><0. 009 4,双尾）。 

合并显著性水年和研免户生的鉦据 

计票的结果与合并显著性水平方法产生了研究产生的证 
据。 也就是说，对于考虑中的假设，综合进来的每项检验都有 
自己的分析认识。因此，在个体研究中，为了说明因果机制，如 
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果对参与者使用了随机分配的形式，则计票的合并结果和加 z 
法与这些机制相关。在这些结论的基础上，如果原始研究实际 
上包括了实验操作，综述者就能对 因果关 系做出判定。 

测量关系强度 

迄今为止描述的元分析方法的基本功能是帮助综述者接 
受或拒绝虚无假设。许多对社会理论感兴趣的研究者已满足 
于简单地确认一些具有解释价值的关系。“是或否”这一问题 
的普遍存在，部分原因是由于相关社会科学的最新发展所致。 
社会假设只是简单说明 r 初步协议 （first approximation ) 的真 

相。社会理论家极少关心有效的理论如何解释了人类的行为， 
或者，如何解释了比较竞争方面的相对解释价值。如今，随着 
社会理论家的理论逐步完善，他们也会经常询问关系大小^ 

伴随着虚无假设显著性检验本身的发展，人们对“有多 
少”这个问题的理解也在不断加深。正如我早先提到的，无论 
一个虚无假设是否被桁绝，它都与详细审査下的特定研究项目 
密切相关。如果参与者的数量比较合适或采用了敏感的研究 
设计，那么，拒绝一个虚无假设就不足为奇了。在一个包含合 
并显著性水平的元分析中，这种事态变得更加明显并且影响力 
较强，甚至能够用来发现非常小的联系。因此，拒绝虚无假设， 
并不能保证我们已经获得了一种電要的社会洞察能力。 

最后，在社会研究中应用时，变量之间的处理效应或关系 
是大、是小？是重要，还是无关紧要？计票法与合并显著性水 
平方法没有提供任何信息。回答虚无假设，“做家庭作业是否 
能提高学生的学习成绩？”通常不是最重要的问题。相反，最重 
要的问题是“做多少家庭作业能够提高学生的学习成绩？”答 
案可能是不做家庭作业、做多点家庭作业或做少点家庭作业。 
进一步来说，综述研究者应该问“哪些因素影响家庭作业的效 
果？”回答这一问题，将有助于综述者对下面的问题提出一些建 
议，即如何才能更好地分配家庭作业从而使其效果最佳。对于 
这些问题，综述者将转向计算平均效应量。同时，正如稍后说 
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明的，对于一个虚无假设问题，“关系强度不等于零吗？”，综述 
者可以围绕着“是多少”这一估计设置的置信区间来冋答此问 
题，无须争独合并显著性水平检验。 


致启量的走义 

为了有意义地回答“有多少？ ”这一问题，我们必须同意术 
语“差异大小”和“关系强度”的定义，它们通常被称之为效应 
量 （effect size )。 而一旦我们界定了这些术语，就需要使用定量 

研究方法来说明它们。在《行为科学的统计检验力分析》一书 
中，雅各布 • 科恩 （Jacob Coh en ，1998) 介绍了效应最最完整的 
定义（也可见 Lipsey ,1990) ，如下所示： 

任何没有预计必要的因果关系的含义，使用词组“效 
应量”来表示“在何种程度上这一现象会出现在总体中”， 
或者“在何种程度上的虚无假设是错误的”是很方便的。 
通过上述说明，现在很容易清楚得知何时虚无假设是错误 
的，以及错误的具体程度。换言之，在总体中，效应量 
( ES ) 就是一些具体的非零值。这个值越大，就越能够证 
明对这一现象的研究程度越高。 ( pp .9-10) 



攻击性数量 


图 5. 2在攻击性实验中酒精和安慰 

剂组间的三种假设关系 
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图5 • 2介绍了描述科恩 （ Cohen ， 1988) 定义的三种假设关 
系。假设结果来自于比较了酒精的攻击性效应与安慰剂效应 
的三个实验中。图 5.2 A 描述了一种虚无关系。也就是说，喝 
酒的参与者与使用安慰剂的参与者的攻击性得分的均值和分 
布相同。在阁 5.2 B 屮，喝酒群组的均值比使用安慰剂组的稍 
髙一点。而在图 5.2 C 中，不同处理方式的差别更人。测量效 
应量必须表达这三种结果，以便尽可能地远离与更高的效应量 
值相关的虚无假设。 

科恩 （ Cohen ，1988) 的书里包含了许多不同的、用于描述关 
系强度的指标。与一种特定的研究设计方式相关的每种效应 
量指数与两组比较相关的£检验、多群组设计相关的 F 检验和 
频率表相关的卡方检验 （chi squares ) 很相似。为 /* 说明效应 
量，我描述了三个主要指标和一个二级指标。 一 般来说，这些 
指标是非常有用的——几乎所有的研究结果都可以用它们中 
的一种来表示。关于这些效应 S 测量指标及其他测董指标更 
详细的信息，读者们可以参考科恩的著作。然而，科恩介绍的 
是一些可以估计多重自由度检验的效应暈测量指标。因此，我 
的描述仅限于与单一自由度检验相称的测量指标。 

d 指教 

当比较两组的均值时，用^指数测量效应量是适当的 。 d 
指数通常用于以两种条件的比较为基础的 z 检验或 F 检验中。 
c / 指数表明了有着共同标准差的两组均值之间的差异大小。 
例如，如果 d =0. 40,就意味着两均值之间相差了 4/10个标 

准差。 

在图 5. 2中描述的假设性研究结论说明了 d 指数。对支 
持虚无假设的研究结果（图 5. 2 A ) 指数是0。也就是说，饮 
酒组和使用安慰剂组有着相同的组平均值。第二个研究结果 

(| 冬 15.2 B ) 指出了 指数是 0.40 -也就是说，饮酒组的均值 

比使用安慰剂组的均值的标准差卨出了 4/10。在第三个例子 
中，描述的^指数是 0. 85。在这里，较高均值组 （ 饮洒组）比较 
低均值组（使用安慰剂组）的均值的标准差高出了 85/100。 

计算 d 指数十分简单，公式 如下： 
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( SD { + SD 2 

2 


这里 

芩和义=两组的平 均值； 

S /^ 和 SD 2 =两组的平均标准差。 


(5.5) 


d 指数公式假定的是两组的样本容量和标准差相等 （ 或者 
大致相等）。 

d 指数不仅计算简单，而且便于测量。也就是说，对公式 
分母中标准差的调整意味着，使用不同测量尺度的研究可以进 
行比较或合并。 

在许多案例中，综述者会发现原始研究者没有报告个别组 
的标准差和均值。对这种情况，罗森塔尔 （ Rosenthal , 1984, 

1994) 提供了一个^指数计算公式，它不要求元分析者知道具 
体的均值和标准差。公式 如下： 



2 t 

V 4frrror 


这里， 

相关比较的 〖检验值； 
dferror =与 t 检验相关的自由度误差。 


(5.6) 


在案例中，报告了分+里具有单一自由度的 F 检验。如果 
元分析者知道不同均值的方向，则在上面的公式中，/ " 值的平 

方根 O = #) 就能替代 〖值。 

从直观意义上讲 Y 指数还有一些有待改进之处。由于这 
个原因，科恩 （ Cohen , 1998) 介绍了一种与 d 指数相关的测量指 
标，称之为 A 。 t / 3 表明了较低均值组样本的百分比，它被较高 
均值组的分数超出了 50%。 f / 3 回答了“较高均值组的平均分 
数比较低均值组高出多少个百分比？”这一问题。在表 5. 3中， 
介绍了 d 指数的值转换成的 A 值。例如，图 5. 2 B 显示的 d 指 
数为 0.40 对应的 f / 3 值为 65. 5%。这表明，较高均值组（酒精 
组）的平均分数比较低均值组（安慰剂组）高出了 65. 5%。在 
图 5. 2 C 中 j 指数为 a 85对应的 f / 3 值为 80. 2。这表明，较高 
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均值组（酒精组）的平均分数比较低均值组（安慰剂组）高出了 

80. 2% 0 


表 5.3 

d ~ 
0 

0 . 1 
0.2 
0.3 
0.4 
0.5 
0.6 
0.7 
0.8 
0.9 
1.0 
1 . 1 

1.2 

1.3 

1.4 

1.5 

1.6 

1.7 

1.8 
1.9 
2.0 

2.2 

2.4 
2.6 
2.8 
3.0 

3.2 

3.4 
3.6 
3.8 
4.0 


一些效应量测置指标之间的对应值 


" 3 (%) 

r 

r 2 

50.0 

0.000 


54.0 

0.050 

0.002 

57.9 

0. 100 

0.010 

61.8 

0. 148 

0.022 

65.5 

0. 196 

0.038 

69. 1 

0.243 

0.059 

72.6 

0.287 

0.083 

75.8 

0.330 

0. 109 

78.8 

0.371 

0. 138 

81.6 

0.410 

0. 168 

84. 1 

0.447 

0.200 

86.4 

0.482 

0.232 

88.5 

0.514 

0. 265 

90.3 

0.545 

0.297 

91.9 

0. 573 

0.329 

93.3 

0.600 

0.360 

94.5 

0.625 

0.390 

95.5 

0.648 

0.419 

96.4 

0.669 

0.448 

97. 1 

0.689 

0.474 

97.7 

0.707 

0.500 

98.6 

0.740 

0.548 

99.2 

0.768 

0.590 

99.5 

0.793 

0.628 

99.7 

0.814 

0.662 

99.9 

0.832 

0.692 

99.9 

0.848 

0.719 

a 

0. 862 

0. 743 

a 

0.874 

0. 764 

a 

0. 885 

0. 783 

a 

0. 894 

0. 800 


资料来源: Cohen ( 1988) 版权属于 Erlhaum 和 Associates . 经允许后重印 u 
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r 指教 

第二种效应量是 r 指数，即皮尔逊积矩相关系数。当研究 
者对描述两个连续变暈之间的关系感兴趣时， r 指数是最适宜 
表达此种效应量的测量指标。 

大多数社会学家对 r 指数都很熟悉，但计算它的公式需要 
方差和协方差，所以 r 指数通常极少能从原始研究报告提供的 
信息中计算出来。幸运地是，在大部分情况下，当需要应用「 
指数时，原始研究者都会将它们报告出来。如果仅给出了与 r 
指数相关的£检验值，就可以利用下面的公式来计算「 指数： 



所有项的定义和以前一样。 


比值比 

当两变量分成两部分时——比如，只是对喝洒与没喝酒的 
人是否表 现出了 攻击性行为进行了简单比较，这时可以应用第 
三种效应量测量指标。这种效应量测量我们称之为比值比 
(the odds ratio ) ，它经常应用在医学科学，因为此领域的研究者 
经常对一种疾病导致的死亡率、疾病的出现或消失的治疗效果 
感兴趣。 

正如它的名字所指，比值比描述了两组比值关系。假设元 
分析者遇到了一项研究——酒精是否会对人们产生攻击性行 
为造成影响。对200个喝酒或使用安慰剂的人进行观察，看是 
否能找到任何攻击性证据。研究结果 如下： 

酒精 安慰剂 
攻击 75 60 

非攻击 25 40 


为了计算比值比，元分析者必须首先确定，在喝酒条件下 
参与者的攻击性行为的比值是3: 1(75:25)。使用安慰剂条件 
下攻击性行为的比值是 1.5： l (60：40) o 然后对比这两者情况 
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下的比值，元分析者会发现此时的比值比是 2 , 这说明在喝酒条 
件下的比值是使用安慰剂条件下的两倍。当两组中的比值一 
样时（即当虚无假设为真时），则比值比为1。也可以用更直接 
的方法算出比值比，即用主对角线上两个数的乘积除以对角线 
上两个数的乘积——在这个例子中，也就是 （75 x 40) + (60 x 
25) 0 

因为社会科学中很少使用比值比，而且在综述案例中也不 
常使用这一方法，所以在这里就不展开介绍了。这种方法的具 
体应用将在以后适宜使用它的时候进行讨论。 


佑讨故启量中的輿际问超 

计算效应量的公式比较简单易懂。但实际上，当元分析者 
尝试着计算效应量时，他们会遇到很多技术问题。这些问题中 
最重要的一个问题是缺失数据。其他问题的出现是由于不同 
的研究使用的研究设计不同、样本估计偏差及效应量度量方法 
本身的一些独特特征造成的。这里我将描述其中的一些。 


为不同设计的研究选择一 个测最 指标。 元分析者会遇到 
的一个问题是，在研究同一问题时，不同的原始研究者选择的 
研究设计不同。例如，在人格与人际期望效应关系的综述中， 
有些原始研究者把人格分数分为“高”、“低”两组，然后使用^ 
检验來确定这两组是否显著不同。而其他的研究者将人格量 
表以连续形式存留，并把它们与连续测量的期望效应联系 
起来。 

当出现不同的设计时，综述者必须将一种测量指标转换成 
在元分析中可以使用的其他单独测量指标。十分方便地是，不 
同的效应量测量指标之间的相互转换非常简单。使用下面的 
公式可以将 r 指数转换成 指数： 

(5.8) 

或者可以用下面的公式将 d 指数转换成 r 指数。 



__ d — 


(5.9) 


表 5. 3给出了测量这两种效应的对应值。 
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当给出了一张与2 X 2 列联表相关的卡方统计时，可以用 
下面的公式来估计 r 指数： 



(5. 10) 


这里 


=与比较相关的卡 方值； 
n = 比较中的观测值的总数。 


科恩 （ Cohen ，1998) 也给出了一种效应量（不是一个比值 
比），称为 w 指数，也与卡方相关。当命=〗时，这种测量指标 
等同于 r 指数。 

即使各种测量指标之间很容易转换，但元分析者仍然应该 
选择一种单独的测量指标来描述他们的结果。究竟选择哪一 
种测景指标来表示效应量，主要取决于与研究中测量变量和设 
计特征最适合的那种测量指标。也就是说，测量指标的选择应 
该建立在概念变量的基础上。因此，当我们把人格与期望效应 
联系起来时， r 指数是最合适的，因为这两个变量实际上是概念 
连续的。前面介绍的第一个研究产生了两个“人为的群组” 
(artificial groups ) ，它们能够找到显著性差异的概率最大。对 

于此研究，我们可以从高或低人格组均值和标准离差中计算 d 
指数，然后再利用公式 5. 9将它转化成 r 指数。 


为 d 指数的标准差选择_种估计。 在使用标准差估计围 

绕着组均值的方差时，选择的标准差是影响效应量的一个重要 
因素。正如之前提到的，大多数综述者别无选择，唯有假设两 
组的标准差相等，因为效应量必须从相关显著性检验中估计出 
来并也做了这样的假设。然而，在获得的标准差信息有效且看 
似不相等的情况下，为了将均差标准化，综述者应该选择一个 
群组的标准差作为指数的分母。如果比较了治疗组和控制 
组，则应该使用控制组的标准差。对于 t /, 指数，为了说明治疗 
效果，综述者可以把它与未接受治疗的群体进行比较——比 
如，“接受治疗者的平均数比未接受治疗者卨出％%”。 


估计比较两组以上研究的效应量。 假设我们发现: T 一个 
有关酒精对攻击性影响的研究，它比较了三个群组——例如, 
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喝酿造酒的组、喝蒸馏酒的组和使用安慰剂的组。在这个例子 
中，我们很有可能会计算两个 d 指数 ：一 个是比较喝蒸馏酒的 
组与使用安慰剂的组得出的，另一个是比较喝酿造酒的组与使 
用安慰剂组得出的（我们也可以比较喝酿造酒的组与喝蒸馏酒 
的组，如果这是我们综述的关注点）。这两个指数不是统计 
独立的，因为它们依据的是相同的使用安慰剂组的均值和标准 
差。但是，这种复杂因素也是使用一个与多组推论检验相关的 
效应量测量指标最好的替代策略。 

其中一种效应量叫做 PV。 它告诉我们在因变量中由群组 
成员解释的方差的百分比。首先， PV 有吸引力的特征在于，即 
使不考虑研究中组内成员的情况下，它也可以直接使用（实际 
上，它也能和两个连续测量数一起使用）。然而，它也有不具吸 
引力的特征，即它得出的效应量结果不能给我们提供有关最高 
均值的任何信息。相同的 PV 值能从任一组均值的排序中得 
岀。然而， PV 是一种不被关注的效应量测量指标。综述者极 
少使用，要么根本不用。 

由于这种模糊性，所有的效应量应该表示为 :(a) 两组之间 
的比较 （ 如果包括多敢组，4以作为其他单一自由度的对比）， 
(b) 两个连续变量之间的相关关系测量，或者 （c ) 比值比。在 
原始研究中，建议在 多歌自 由度显著性检验的后面紧随着单一 
自由度比较。对于与这些检验相关的效应量同样也是对的。 
如果原始研究者和综述研究者准确地界定了这个问题，他们就 
应该能确定竽一自由度推论检验及他们感兴趣的每一比较相 
关的效应 M。 

从多重因素分析中估计效应量。 影响效应量的其他研究 
设计包括了在数据分析程序中使用的若干 W 素。例如，一位原 
始研究者在检验做家庭作业或不做家庭作、 Ik 对成绩的影响时， 
可能也会考虑个体差异因素，如在多因素方差分析或多重回归 
分析中，考虑学生的年龄、性别。原始研究者可能会不报告两 
个实验组的均值和标准差。那么，元分析者就面临着两种选 
择 ：第一 ，在 F 检验的基础上，使用已减少的列入额外因素的误 
差项计算出效应量估计。第二，他们可以尝试着检索已经出现 
的忽略了所有外界因素的标准差（如已包含在误差估计里 
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的）。只要有可能，就应该使用后面的方法——也就是说，应该 
试着去计算效应量，就好比感兴趣的比较是分析中的唯一比较 

一样。 

从实际上讲，对元分析者来说，检索这个总体标准差估计 
通常是很困难的。在此情况下，当元分析者寻找对研究结果的 
影响因素时,他们应该分析包含在实验中的若干因素是否与效 
应景相关。 

消除来自总体值中的小样本估计偏差。 一个样本统计 

暈——不论是效应量、均值还是标准差——是通过在较大总体 
中抽取的少数人为基础测算出来的。如果我们对总体中的每 
个人都进行测量，那么这些样本统计量会和我们得到的值有所 
不同。元分析者想出了很多办法来调整出现的已知偏差，因为 
建立在样本基础上的效应量估计，并不总是能真实地反映它们 
潜在的总体值。 

赫奇斯 （ Hedges ， 1980) 指岀 j 指数可能对整个总体中的 
效应量估计略高。然而，如果样本量超过了 20,偏差则是最小 
的。如果元分析者是从少于20个样本量的原始分析中计算出 
指数的，则应该采用赫奇斯校正因子。有些计算比值比的方 
法也有可能导致会高估或低估总体效应量（见 Fl e iss ，1994)。 

除了效应量估计中的小样本偏差，元分析者们在阐述任何 
建立 在少童 数据点基础上的效应量时，也需格外谨慎。当样本 
较小时，单个极值指数）或一对值 （ r 指数）能创造出特别大 
的效应量估计。 


指数的正态化分布。 当 r 指数很大时 


也就是说，当 


它们会显示出非正态 


他们估计的总体值和零相差很大时—— 

的抽样分布。之所以会发生这种情况，是因为/•指数的值被限 
制在 -1.00 至 1.00 的范围之内。因此，当一个总体值接近不 
了这两个极限值时，一个样本估计可能值的值域将被限制朝向 
可接近的极限。抽样值的分布将偏离正态分布。 


为了对此进行调整，对于调节量，在合并或检验效应量估 
计之前，一些元分析者将 r 指数转化成了相关的 z 分数。 z 分数 
没有极限值并且是正态分布的。从本质上说，这一转换“拉伸” 
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了受影响的“尾部”并且恢复了钟形形状。 一 旦平均 z 分数计 
算出来了，它又可以转换成 r 指数。 

如果 r 指数接近于零，就没有必要进行转换。事实上，不 
论 r 指数的值为多少，有些元分析者都不进行转换。 r 指数至 z 
分数的转换分析表（见表 5. 5) 说明，直到 r=0. 25, 这两个值基 
本上是接近的。然而，当「指数是 0.50 时，相关的 z 分数是 
0. 55 ,而当 r 指数是 0. 8 时，相关的 z 分数是 1.1 。 

调整方法上的“人为因素”的影响。 效应量的大小，会受原 
始数据收集方法中方法上的“人为因素”的影响。亨特和施米 
特 （ Hunter & Schmidt ， 1990 ， 1994 ) 描述了多种“人为因素”，包 

括对抽样值域的限制和测量方法缺乏的可靠性。在后一种情 
况下，误差较多的测量对检测包括在测量概念变量中的关系不 
是很敏感。比如，假设两种人格维度与期望效应有着同等的 
“真实”关系。在测最中，如果一个变費的误差比其他的变量 
多，这个不太可靠的测量将会与期望效应产屯较小的联系。 

通过不同测量方法得到的信度（比如，内在-•致性），元分 
析者便可以估计测量效应*的信度产生的影响。然后可以据 
此观察效应量是否与测量的信度相关。此外，如果所有的测量 
是完全可靠的，利用亨特和施米特 （ Hunter & Schmidt , 1990 ， 
1994) 所描述的方法，元分析者也能估计效应董。 

合并研究中的效应量 

一旦计算出了每一种效应量，元分析者便将估计同一比较 
或关系的效应暈进行平均。他们普遍认为，这些平均值应该能 
够衡量以一些参与者的各自样本为基础的个别效应量。比如， 
与以 50 个参与者为基础计算出来的估计值相比，以 500 个参 
与者为基础计算出来的 d 指数或 r 指数得出的总体效应量估 
计将更准确。平均效应量应该能反映这一事实。 

在考虑到样本量的情况下，计算一种平均效应量的方法 
是：用 每个估计值的样本量乘以它们的估计值，然后把得到的 
结果加起来，最后再用这个总和除以样本量总和。这是一种更 
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精确的方法，赫奇斯和奥肯 （Hedges & 01 kin ，1985) 对它进行了 
详细描述。这种方法虽然包含了很多优点，但是计算起来比较 
复杂 c 


d 指教 

对于 d 指数，此方法首先要求元分析者汁算一个加权因 
子，称之为％，它是与每一个 d 指数估计相关的方差 的逆： 


公式 


2 ( n iX + n a )n 


2 ( n n + %) 2 + 


d] 


(5. 11) 


这里， 


化和％ =组1 和组 2 比较的数据点 数量； 
d , =：处于考虑中的 d 指数比较。 

尽管计算％的公式看起来比较复杂，无论我们何时计算 c / 
指数，实际上，它只是三组数据的一种简单运算。使用编制的 
计算机统计软件包进行必要的计算非常容易，设计好的用来进 
行元分析的程序也可以帮你计算。 

表 5. 4描述了与七个比较结果相关的组样本最 j 指数和 
这个例子来自于收集的作为家庭作业研究的部分综述 


的实际数据。这七个研究比较了布置作业对成绩的影响。一 
些研究中包括了与当天所讲的主题内容相关的家庭 作业； 另一 
些研究中的家庭作业是分散布置的。所有这七个实验产生的 
结论都支持分散布置家庭作业。 

为了进一步阐明加权因子，请注意，在表 5.4 中，它的值大 


约等于一个组中平均样本量的一半。这也不会让人感到奇怪， 
接着，用每个 d 指数乘以它的相关加权，然后对其求和，再用这 
个和除以加权的和就能得到加权平均效应量。公式 如下： 


X 乂 ％ 


d . 


(5. 12) 




公式中所有项的定义和以前一样。 

表 5. 4表明，七个比较的 rf 加权平均指数为 rf =0. 115 
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表 5. 4 d 指数估计和同质性检验的一个案例 


研究 

结果 


V 


259 

57 

43 

230 

296 

129 

69 


1 083 


265 

62 

50 

228 

291 

131 

74 


1 101 


0.02 
0.07 
0.24 
0. 11 
0. 09 
0. 32 
0. 17 


.02 


w i 


1 30. 98 
29. 68 
22. 95 
1 14. 32 
146. 59 
64. 17 
35.58 


544. 27 


cl 2 


0.052 
0. 145 
1.322 
1.383 
1. 187 
6. 571 
1.028 


.69 



2.619 
2. 078 

5. 509 

12. 576 

13. 193 
20. 536 

6. 048 


62.56 


(h 

分组 



^ 競 =0 . 115 


C/ 靡 =0. 115 ±L96 —=0. 115 ±0. 084 

d 69 _S ^ =4 . 5 


Q 、 


.16+2. 36=3.52 


使用 A 、， 而不是样本量作为加权的好处在于， A 能产生 
一个精确的围绕着平均效应量估计的置信区间。为了实现这 
一目的，必须计算出平均效应量的估计方差。首先，会得到 
u ;,’ s 总和的倒数，然后用与置信区间相关的 z 分数乘以这一方 
差的平方根。计算95%的置信区间的公式 如下： 


95 


d . ± 1 • 96 


(5. 13) 



W ^ 

X 


w 


公式中所有项的定义和以前一样。 

表 5. 4表明，在包含了七个比较的95%的置信区间范围 
内，指数值为 0. 084 ,这个值高于或低于平均 d 指数的值。因 
此，我们期望这一效应95%的估计值落在 d ^ O . 031和 rf = 
0.199 之间。注意，这一区间不包括^=0的值。这一信息，可 
以被看作是一个在总体中不存在关系的虚无假设检验，它可以 
代替之前讨论过的合并显著性水平方法。在这个例子中，我们 
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可以拒绝一个虚无假设，即在学习成绩上，仅做当前的家庭作 
业与分散的做家庭作业的学生之间没有差异。 

r 指數 

发现 r 加权平均指数及其相关的置信区间的方法要简单 
得多。首先将 r 指数转换成相对应的 Z 分数，然后可以采用下 
面的 公式： 

Z (' - 3 ) 2 . 

^- (5. 14) 

Z ( …- 3 ) 

1^1 

n t = ith 比较的总样 本量； 

公式中所有项的定义和以前一样。 

对于置信区间，公 式是： 



公式中所有项的定义和以前一样。 

表 5. 5描述了采用这一方法所需的 r 指数至 z 分数的转 
换。一旦确立置信区间，参照表 5. 5，元分析者就能检索到相对 
应的 r 指数 （ r 平均指数和置信区间的极限）。 


表 5.5 r - 2 的转换 



0.000 0.000 0. 200 0.203 0. 400 0.424 0.600 0. 693 0. 800 1.099 

0. 005 0. 005 0.205 0.208 0. 405 0.430 0. 605 0.701 0.805 1.113 

0.010 0.010 0.210 0.213 0.410 0.436 0.610 0. 709 0.810 I. 127 

0.015 0.015 0.215 0.218 0.415 0. 442 0.615 0.717 0.815 1. )42 

0.020 0.020 0.220 0.224 0.420 0. 448 0.620 0,725 0.820 1. 157 

0.025 0.025 0.225 0. 229 0.425 0.454 0.625 0. 733 0.825 1.172 

0.030 0.030 0.230 0. 234 0. 430 0.460 0.630 0.741 0. 830 1.188 

0.035 0.035 0.235 0.239 0.435 0. 466 0.635 0.750 0.835 1.204 

0.040 0.040 0. 240 0.245 0.440 0.472 0.640 0. 758 0.840 1.221 

0. 045 0. 045 0.245 0.250 0. 445 0.478 0. 645 0.767 0.845 1.238 

0.050 0.050 0.250 0. 255 0. 450 0. 485 0.650 0.775 0.850 1.256 
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续表 


r z 


0. 055 

0. 055 

0.060 

0. 060 

0. 065 

0. 065 

0.070 

0. 070 

0. 075 

0. 075 

0. 080 

0. 080 

0. 085 

0.085 

0.090 

0. 090 

0. 095 

0. 095 

0. 100 

0. 100 

0. 105 

0. 105 

0. 110 

0. 110 

0. 115 

0. 116 

0. 120 

0. 121 

0. 125 

0. 126 

0. 130 

0. 131 

0. 135 

0. 136 

0. 140 

0. 141 

0, 145 

0. 146 

0. 150 

0. 151 

0. 155 

0. 156 

0. 160 

0. 161 

0. 165 

0. 167 

0. 170 

0. 172 

0. 175 

0. 177 

0. 180 

0. 182 

0. 185 

0. 187 

0. 190 

0. 192 

0. 195 

0. 198 


T Z 


0. 255 

0.261 

0. 260 

0. 266 

0. 265 

0.271 

0.270 

0. 277 

0. 275 

0. 282 

0. 280 

0. 288 

0. 285 

0.293 

0. 290 

0. 299 

0. 295 

0. 304 

0. 300 

0. 310 

0. 305 

0. 315 

0.310 

0.321 

0.315 

0. 326 

0. 320 

0. 332 

0. 325 

0.337 

0. 330 

0.343 

0.335 

0. 348 

0. 340 

0. 354 

0, 345 

0. 360 

0. 350 

0. 365 

0. 355 

0. 371 

0. 360 

0.377 

0. 365 

0. 383 

0. 370 

0.388 

0. 375 

0. 394 

0. 380 

0.400 

0. 385 

0. 406 

0. 390 

0.412 

0. 395 

0.418 


r z 

0.455 0.491 
0. 460 0.497 
0.465 0. 504 
0.470 0.510 
0.475 0.517 
0.480 0. 523 
0. 485 0. 530 
0. 490 0. 536 
0.495 0. 543 
0. 500 0. 549 
0. 505 0. 556 
0.510 0. 563 
0.515 0. 570 
0.520 0,576 
0.525 0. 583 
0. 530 0. 590 
0.535 0.597 
0. 540 0.604 
0. 545 0.611 
0. 550 0.618 
0.555 0.626 
0. 560 0.633 
0. 565 0.640 
0. 570 0. 648 
0. 575 0. 655 
0.580 0.662 
0. 585 0. 670 
0. 590 0.678 
0.595 0. 685 


r z 


0. 655 

0.784 

0.660 

0. 793 

0. 665 

0.802 

0.670 

0. 811 

0. 675 

0. 820 

0. 680 

0. 829 

0.685 

0. 838 

0. 690 

0.848 

0. 695 

0. 858 

0. 700 

0. 867 

0. 705 

0.877 

0.710 

0.887 

0.715 

0.897 

0. 720 

0. 908 

0. 725 

0.918 

0. 730 

0. 929 

0.735 

0. 940 

0. 740 

0. 950 

0. 745 

0. 962 

0. 750 

0. 973 

0. 755 

0. 984 

0. 760 

0. 996 

0. 765 

1.008 

0. 770 

1.020 

0. 775 

1.033 

0. 785 

1.045 

0. 790 

1.058 

0. 780 

1.071 

0. 795 

1.085 


r z 


0.855 

1. 274 

0. 860 

1.293 

0.865 

1,313 

0. 870 

1.333 

0. 875 

1.354 

0. 880 

1.376 

0. 885 

1.398 

0. 890 

1.422 

0. 895 

1.447 

0.900 

1.472 

0. 905 

1.499 

0.910 

1. 528 

0.915 

1. 557 

0. 920 

1.589 

0. 925 

1.623 

0. 930 

1.658 

0.935 

L697 

0. 940 

1.738 

0. 945 

1.783 

0. 950 

1.832 

0. 955 

1.886 

0.960 

1.946 

0.965 

2.014 

0.970 

2.092 

0. 975 

2. 185 

0. 980 

2. 298 

0.985 

2. 443 

0. 990 

2. 647 

0. 995 

2. 994 


资料 来源： Edwards(l967>. 版权 （ 1967) 属于 Hoh ， Rinehart 和 Winston ，重印获得许可 , 


表 5. 6举例说明了如何计算 r 平均指数。这个例子给出了 
学生花在做家庭作业上的时间与学习成绩水平有关的六个相 
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关数据。 z , 的平均值是 0.207, 在 95% 置信区间下其数值的范 
围是从 0. 195 到 0.219。 注意，这个置信区间是相当狭窄的，是 
因为效应量估计值是建立在较大样本的基础上。还要注意 ， r 
指数至 z 分数的转换只引起了两个 r 指数值很小的变化。 


表 5. 6 r 指数估计和同质性检验的案例 


研究 

结果 

n , 

r i 


% -3 

(' -3) z , 

U ,-3 k 2 

Q b 

分组 

1 

1 021 

0. 08 

0.08 

1 018 

81.44 

6. 52 

A 

2 

1 955 

0. 27 

0. 28 

1 952 

546. 56 

153.04 

A 

3 

12 146 

0.26 

0. 27 

12 143 

3 278.61 

885. 22 

A 

4 

3 505 

0.06 

0.06 

3 502 

210. 12 

12.61 

B 

5 

3 606 

0. 12 

0. 12 

3 603 

432. 36 

51.88 

B 

6 

4 157 

0. 22 

0.22 

4 154 

913.88 

201.05 

B 

V 

26 390 

0. 85 

0. 87 

26 372 

5 464. 97 1 310. 32 



5462.97 
2 = 26 372 


= 0. 207 


CI t95% =0.207 ±1.96 / v / 26 372 =0. 207 ±0.012 

^ =1 310. 32 - 2 , ) 2 = 178. 66 

26 372 

Q w = 34. 95+50.40=85. 35 
仏 = 178. 66 =85.35 =93.31 


如果/ • 指数的值更大一点的话就不会这样 （ 例如， r 指数为 
0. 60对应的 z 指数值是 0. 69,见表 5. 5)。正如之前的例子， 

^ =0没有包括在置信区间内。因此，我们可以拒绝这样的虚无 
假设，即学生花在家庭作业上的时间与他们的学习成绩水平之 
间没有关系。 

综迷素例 

d 指数和 r 指数都应用在综述案例中。根据对控制组的处 
理方式，酒精对攻击性的影响的元分析研究描述了一些总体 
指数。比较喝酒和没喝酒的参与者，计算出的 d 平均指数是 
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0.25。 这一 ^指数值表明，在饮酒组中，平均每人产生的攻击 
性要比没喝酒组大约高 60%。 比较饮酒组与使用安慰剂组得 
出的平均指数是 0.61， f / 3 =72.6%。 比较使用安慰剂组与没 
有使用安慰剂组得出的 d 平均指数是 CX 10，[/ 3 =54%。 最后比 
较饮酒组与“抗安慰剂”条件组的攻缶性——也就是那些被告 
知不喝酒但后来又喝酒的组—— rf 平均指数是 0.06。 

在照片等级实验中， r 指数在元分析关系中常被用来测量 
人格和人际期望效应之间的效应董。最大的平均相关系数，即 
/15, 是在实验者对社会影响力的需求和产生的人际期望 
效应之间发现的。 

分析研究结果中的效应量方差 

如何检验在独立研究中使用了显著性水平的虚无假设及 
如何估计关系强度，迄今描述的分析方法已经对其迸行了阐 
释。同时，另一套统计方法会帮助我们发现，为什么变量间的 
效应量会因研究对象的不同而不同。在独立研究分析过程中 
发现的效应量是“因变量”或者是被预测变量，而这些研究的 
特征是预测变量。综述者会问这样一个问 题：在 一个研究中， 
两变 M 之间的关系量是否会受研究设计和实施方式的影响。 

在表 5.4 和表 5_6 中，效应 萤的一 个明显特征是，它们会 
随着比较的不同而各不相同。解释这种变化性不仅十分重要， 
而且代表了综述研究最独特的贡献。在单个实验中，尽管影响 
关系强度的因素可能从来没有被研究过，通过分析效应量中的 
差异，综述者就能探明这些影响因素。例如，假设表 5. 4 中所 
列的前四个研究在小学进行，后三个研究在中学进行。对于不 
同的年级，给学生布置的家庭作业的类型是否各不相同？尽管 
没有哪个单个研究同时把小学和中学作为样本使用，但使用下 
面介绍的分析方法可以暂时回答这一问题。 

接下来，我将介绍一些分析效应量中方差的方法案例。我 
没有描述一些比较复杂的分析方法。尤其是，我哲略了置信剖 

面法 （the Confidence Profile Method ) ( Eddy , Hasselbald & 



146 ^ 如何做综述性研究 


Schachter , 1992 ) 和 W 叶斯方法 （ Ix>uis & Zelterman , 1994 ) 。采 

用这些方法需要更高级的统计概念和操作知识。我所描述的 
只是基础的概念和简单的操作知识。如果对这些方法感兴趣， 
我建议你们首先去查看有关它们更详细的介绍资料，尤其是本 
书中包含的那些参考文献。 


侍堍的推论蜣讨 

我们可以采用原始研究者使用的传统推论方法来分析效 
应量方差。如果一位元分析者对男性喝酒时产生的攻击性的 
效应量是否比女性强这个研究感兴趣，他就可以做一项£检 
验，主要是专门使用男性或专门使用女性进行比较这两种情况 
下的效应量的差异。如果元分析者对酒精的效应量是否会受 
饮酒与测最攻击性之间的延迟值的影响这个研究感兴趣，他们 
就可以将每一个比较的延迟值与各自的效应量联系起来。在 
这个例子中，预测变量和因变量是连续的，所以与相关系数相 
关的显著性检验是合适的推论统计。对于更加复杂的问题，综 
述者可以将不同的效应量分成多种要素进行讨论——例如，按 
照参与者的年龄和性別——对效应量进行方差分析或多元回 
归分析。在表 5. 4中，如果使用单因素方差分析对前四个 d 指 
数和后三个 d 指数进行比较，则结果将是不显著的。 

标准的推论程序就是被元分析者最初用来检验效应量方 
差的方法。格拉斯、麦考和史密斯 （ Glass , McGaw，and Smith , 

1981) 详细说明了如何应用这种方法。在综述研究中，使用传 
统的推论方法至少出现了两个问题。第一个问题，传统推论方 
法不能检验效应量的变异性仅仅是由抽样误差引起的这一假 
设（见本章前面对主效应中变异性的讨论）。因而，在没有确定 
效应 M 中的总体方差是否大于“偶然波动”产生的期望方差的 
情况下，传统的推论方法可以揭示设计特征和效应 M 之间的 
联系。 

第二个问题，因为效应量可能以许多不同的数据点为基础 
(样本量），所以它们各自相关的抽样方差也不相同——也就 
是说，它们是在存在不同误差的情况下测量出来的。如果是这 
种情况（经常是这种情况），效应量就违反了传统的推论检验 
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所强调的方差的同质性假设。因为这两个原因，在进行元分析 
B 寸，已经不再使用传统的推论统计。 

比敕現卷方差和期望方差 

在传统方法中 ，一 些方法已经获得了认可。其中一种方法 
是由亨特和施米特 （Hunter & Schmidt ，1990 ) 提出的。如果只 

是由抽样误差造成了效应量估计的差异，则这种方法比较了不 
同的观察效应量和不同的期望效应量。它涉及 i 十算 （ a ) 从已知 
的研究结果中得出的效应量的观察方差， （ b ) 效应 M 中的期望 
方差（假设它们估计的是同样的潜在总体值）。我们可以使用 
抽样理论计算准确的估计——期望在一组效应量中有多少抽 
样变异。这种期望值是平均效应量佔计、估计数 tt 和它们的样 
本量的函数。 

然后，元分析者对观察方差与期望方差进行比较。亨特和 
施米特 （ Hunter * & Schmidt ，1990 ) 建议，在判断观察方差和期望 

方差之间是否存在显著差异时，元分析者不要使用正式检验。 
他们认为，如果观察方差是期望抽样方差的两倍1那么元分析 
者就应该假设这两者确实不同。无论选择的标准是什么，如果 
认为方差估计是相同的——则抽样误差是效应量中方差的最 
简单 解释。如果认为方差估计是不同的——也就是说，由于抽 
样误差导致了观察方差比期望方差大得多——那么元分析者 
就要开始寻找对效应量的系统影响因素。 

亨特和施米特 （Humer & Schmidt , 1990) 也建议，为了说明 

方法上的“人为因素”影响，元分析者应该调整效应量估计。之 
前，当讨论影响效应鼂估计的因素时，我曾给出了一些例子。 

同质性分析 

同质性分析也比较了观察方差和从抽样误差中得出的期 
望方差。然而，不像第一种方法，它包括了这样一种计算 ：如果 
仅由抽样误差导致了它们的不同，可观察到的效应量显示方差 
的可能性有多大。这种方法是元分析者使用最频繁的，因此我 
将详细阐述。 

同质性分析首先提出了一个问题，“效应量中的观察方差 
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是否与单独从抽样误差中得岀的期望方差显著不 同？” 如果答 
案是否定的，有些统计学家就建议元分析者停止分析。毕竟， 
对效应量为什么不同这一问题，偶然波动或抽样误差是其最简 
申、直接的解释。如果答案是肯定的——也就是说，如果效应 
最显示的变异性比偶然波动的期望方差显著得多——则元分 
析者就需要开始分析研究特征是否与效应量中的方差系统相 
关。有些元分析者觉得，在选择调节量时，如果他们在理论上 
和实践上有良好的理由，不管抽样误差是否被拒绝作为效应量 
中变异的似乎合理的唯一原因，都应该继续搜索调节量。 

假设元分析者介绍了一个同质性检验 M ， 一 般称为，与 
它相关的 P 值是0.05。这意味着在100次抽样里，只有5次抽 
样误差产生广效应量中的这些方差。因此，我们会拒绝由抽样 
误差单独解释的效应量中方差的虚无假设，并且开始搜寻其他 
的影响因素。然后，我们会检验研究特征是否能解释效应量中 
的方差。同时，还将按照共同特征对研究进行分组，并对每组 

的平均效应量进行同质性检验。 

罗森塔尔和鲁宾 （Rosenthal & Rubin ，1982) ， 赫奇斯 

( Hedges ，1982) 介绍了一种同质性分析方法。这里将给出赫奇 
斯和奥肯描述的公式 （Hedges & 01 kin ，1985; 也可参考 Hedges , 

1994) ，并首先描述了 d 指数的使用方法。 

d 指数。为了检验一组 c / 指数是否是同质的，综述者必须 
计算一个被赫奇斯和奥肯 （Hedges & OlKin ，1985) 称之为 

的统 计量： 

, ( i -乂) 2 

Q t = - (5. 16) 

i = l 

A % 

isl 

公式中所有项的定义和以前一样。 

G 统计量服从自由度为 / V -1 的卡方分布。元分析者可以 
从相应的卡方值分布表（上尾）中查到 A 值。如果在选定的显 
著性水平上获得的仏值大 T 卡方上尾的临界值，元分析者就 
会拒绝由单独的抽样误差产生的效应量中的方差的假设。表 
5.7 说明了选定概率水平上的卡方分布。 
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表 5. 7 给定概率水平的卡方临界值 

上尾概率 

隹 - T~ - ■ ^— _ j - 

0. 500 0.250 0. 100 0.050 0.025 

0.455 L 32 2?71 3?84 5.02 

1.39 2.77 4.61 5.99 7.38 

2.37 4. 11 6.25 7.81 9.35 

3.36 5.39 7.78 9.49 11.1 

4.35 6.63 9.24 11. 1 12.8 

5.35 7.84 10.6 12.6 14.4 

6.35 9.04 12.0 14. 1 16.0 

7.34 10.2 13.4 15.5 17.5 

8.34 11.4 14.7 16.9 19.0 

9.34 12.5 16.0 18.3 20.5 

0.3 13.7 17.3 19.7 21.9 

1.3 14.8 18.5 21.0 23.3 

2.3 16.0 19.8 22.4 24.7 

3.3 17. 1 21. 1 23.7 26.1 

4.3 18.2 22.3 25.0 27.5 

5.3 19.4 23.5 26.3 28.8 

6.3 20.5 24.8 27.6 30.2 

7.3 21.6 26.0 28.9 31.5 

8.3 22.7 27.2 30. 1 32.9 

9.3 23.8 28.4 31.4 34.2 

20.3 24.9 29.6 32.7 35.5 

21.3 26.0 30.8 33.9 36.8 

22.3 27. 1 32.0 35.2 38.1 

23.3 28.2 33.2 36.4 39.4 

24.3 29.3 34.4 37.7 40.6 

25.3 30.4 35.6 38.9 41.9 

26.3 31.5 36.7 40.1 43.2 

27.3 32.6 37.9 41.3 44.5 

28.3 33.7 39.1 42.6 45.7 

29.3 34.8 40.3 43.8 47.0 

49.3 45.6 51.8 55.8 59.3 


0.010 

~ 6763 " 

9.21 

11.3 

13.3 
15. 1 
16.8 

18.5 
20 . 1 

21.7 

23.2 

24.7 

26.2 

27.7 
29. 1 

30.6 
32.0 

33.4 

34.8 

36.2 

37.6 

33.9 

40.3 

41.6 
43.0 

44.3 

45.6 
47.0 

48.3 

49.6 

50.9 

63.7 


60 59.3 67.0 74.4 79. 1 83.3 88.4 

0.500 0.750 0,900 0.950 0.975 0.990 

下尾概率 

资料 来源： Pear^ori 和 Hartley(1966) • 版权属于剑桥大学出版社 （ 1966) 重印获得许可。 
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在表 5. 4中，对给定的比较组而言， A 值为 4. 5。在自由 
度为6、/><0.05时，卡方的临界值是12.59。因此，由抽样误差 
解释的这些^指数中的假设不能被栢绝。 

各个比较之间的方法或概念差异是否能够解释效应量中 
的方差，对此的检验程序可分为三步。首先，分别计算各组比 
较的 P 统计暈。例如，为了比较表 5. 4中前四个指数和后三 
个 d 指数，应该计算每组单独的统计量。接着，对这些（>统 
计量的值进行加总，产生 汄值。 然后用值减去 I 值，就可 
以得到 仏值： 

Q h = Q , -汄 (5. 17) 

公式中所有项的定义和以前一样。 

使用统计量 A ， 可以检验两组中的平均效应是否是同质 
的。如果平均 d 指数是同质的，那么，分组因素就不能解释除 
了相关的抽样误差以外的效应量中的方差。如果 A 超过了临 
界值，则分组因素就是效应量中方差的重要促成因素。 

表 5.4 中，比较前四个 d 指数和后三个指数的值是 
0.98。这个结果在自由度为1时不显著。 

r 指数。对 r 指数进行同质性分析的公式 如下： 

A 2 

S X (〜 - 3 ) 2 , 

Q t = 1(^. - 3)4 - (5. 18) 

，=l Z - 3) z , 

公式中所有项的定义和以前一样。 

为了比较各组的 r 指数，方程 5. 18适用于每一个单独的分 

组，而将这些结果的和仏，从 A 中减去，会得到 A 。 

表 5. 6描述了使用 r 指数进行同质性分析的结果。基于自 
由度为5的卡方检验的<?，值 178. 66是髙度显著的。尽管看起 
来 r 指数 e (0. 08,0. 27) 的取值范围并不是很大，但 R 告诉我 
们，给定这些估计值的样本量，如此大的取值范围不能仅仅由 
抽样误差来解释。因此，除了抽样误差，「指数中的方差还受到 
其他因素的影响。 

假定我们知道表 5. 6中，前三个相关关系的样本是 取白中 
学生，后三个相关关系的样本取自小学生。检验年级水平效应 
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量的 r 指数关系量的同质性分析的 A 值是 93. 31。在自由度 
为1的卡方检验的基础上，这个值是高度显著的。对中学生而 
言， r 加权平均指数是 0. 253,对于小学生，则是 0. 136。因此， 
学生的年级水平可能是一个解释 r 指数变化的因素。 

同质性分析的矣际问題 

使用计算机统计软件包。 人工计算加权平均效应量和同 
质性统计量不但耗时长，而且容易岀错。我们可以使用主要的 
计算机统计软件包，如 SAS ( 1992 ) 和 SPSS( 1990) /pT 以很方便 

地进行这些计算。 

通过使用统计软件包进行必要的算术计算并将它们定义 
成新的变量，就产生了 d 指数的加权因 T ( %)和 r 指数的加权 
因子-3)。通过新变量的算术定义，然后将这些变量加总， 
就能得到 H •算出的平均效应量和置信区间的中间值。然后，可 
以使用这个和， （ a ) 可以为进一步的操作创造新的数据组，或者 
( b ) 手工插人到最终公式里。 

对于同质性分析，赫奇斯和奥肯 （Hedges & 01 kin ,1985) 指 
出，可以使用加权最小平方回归法来计算。例如，使用 SAS 统 
计软件包，就能找到一般线性模式程序 （ GLM ) 方法来计算 
统计董 （1992) ，元分析者会编写一套指令来指导进行多元回归 
分析，使用指数或 z 指数转化而来的 r 指数作为因变量， 
( b ) 感兴趣的调节变量作为预测变量， （ c ) 适当的加权 （ ％或 
1 - 3)作为加权因子。 

对 SAS 回归分析的输出结果的解释 如下： 与模型均方相联 
系的检验被忽视了。总的正确的平方总和是如之前显 
示的那样，的显著性水平可以参考卡方值表得出（表 5. 7 )。 
模型平方和是(?„。它的显著性也必须参考卡方表才能得出。 

对具有良好的计算机知识和编程知识的综述者来说，万和 
布什曼（待发表）描述了一组计算机宏命令，使用者可以使用 
它编制 SAS 系统进行元分析。 SPSS 中的相应程序也会得出相 
同的结果。 

另外也可以使用-•些小的计算机程序软件包进行元分析。 
它们包括 DSTAT > True Epistat 和 Fast * pro ( Normand , 1995 ) c 
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一 般而言，这些程序不像大的软件包那么具有灵活性。它们在 
以下方面经常受限 制：自 身容量、测量效应量范围、是否只允许 
输入原始数据或效应量、包含在相同分析中的调节变暈有多 
少、进入数据库后能否对数据库进行操作以及这些软件包在固 
定效应模型和随机效应模型中是否都能使用。然而，在这些程 
序中，尽管有上述限制，如果有一种程序对元分析者比较适用， 
那么，它可能比大的软件包使用起来更容易一些。因为这些程 
序的内容会经常更新，所以，为了能够准确地使用每一种软件 
包，使用者应该找出最新的版本。 

选择固定或随机效应模型。 在我提供的同质分析的例子 
中，假设从个別研究中得出的效应量估计的总体值是固定而不 
是随机的。此时，区分固定效应与随机效应就是个复杂的数据 

分析问题（见 Kalaian & Raudenbush ，1996; Raudenbush ，1994 ) 。 

其实，当抽样误差是唯一的随机影响因素时，则效应量就 
被认为是固定的。然而，有时候研究的其他特征也能成为随机 
影响因素。例如，在对家庭作业成绩效应的研究中，各班的老 
师及他们布置家庭作业的方式有所不同，而这些会影响做家庭 
作业的效果。因为他们这样做无章可循，所以考虑从所有老师 
中进行随机抽样也是恰当的。 

我们必须考虑的问题是，数据组中的效应量是否会受到大 
量不可控因素的影响，比如教师、学校和家庭结构的差异，等 
等。如果答案为“是，它们可能是”，那么元分析者就可以选杼 
一种统计模型，该模型会把导致效应量中随机变异的其他因素 
考虑在内。如果答案为“不是，它们可能不是”，元分析者就可 
以忽略掉上述影响随机变异的因素（或者更确切的，设置成 
零），并且采用固定效应统计模型。 

对于一组特定的效应量，使用固定效应模型或随机效应模 
型哪种最合适，很少有明确的区分。实际上，大部分元分析者 
倾向于使用固定效应假设，因为它更易于操作。有些元分析者 
认为固定效应统计模型使用的太频繁了，即便是在更适宜（或 
者更保守）使用随机效应模型的时候，很多还是使用固定效应 
模型。但反对这一观点的人认为，如果对效应量的影响因素进 
行全面、适当的搜寻是分析策略的一部分——也就是说，如果 
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元分析者看到 r 像教师、学校和家庭结构这些系统效应的影响 
因素，则就会采用固定效应模型。 

处理缺失数据。 与使用同质性统计相关的另一个重要实 
际问题是缺失数据。在许多例子中，尤其在发现了非显著效应 
时，综述者会遇到不完整的数据报告。有人建议使用的一种保 
守处理方法是将这些效应 m 设置为零。然而，如果被假定为零 
的效应占的比例很大，但一个效应确实存在于总体之中，如果 
完整信息的效应暈是有效的，使用这种常规方法估计出来的效 
应量的方差就比其他条件下计算出的方差要大。尽管存在这 
样一种假设，即报告没有统计量的零研究结果的研究者发现， 
恰好为零的效应量对合并显著性水平和估 i 十平均效应量有一 
种保守影响，这种假设可能导致对效应中的观察方差估计 
过大。 

受缺失数据的影响，同质性统计显得统计检验力比较低。 
如果是这样，当同质性统计和常规的统计显著性水平一起使用 
时，可能会遗失掉重要关系。 

检查多重调节量。 当综述者一次想检验几个效应量的调 
节量时，同质性统计会变得很不可靠，也很难解释。赫奇斯和 
奥肯 （Hedges & 01 kin ,1985) 提供了一个检验多重调节量的严 
密模型。这个模型对同质性使用 f 顺序或等级检验。首先根 
据一种凋节量去除效应中的方差，然后根据下一种调节量去除 
剩余方差中的其他方差。 

通常，因为研究特征经常彼此相关，所以这种方法使用起 
来十分困难。例如，假定我想检验家庭作业对学习成绩的影响 
是否会受学生年级和独立测量的标准化水平二者的影响。在 
分析这个比较时，我发现这两个研究特征经常混淆——关于中 
学牛的研究更多使用的是标准化测验，关于小学牛.的研究更多 
使用的是班级年级。正如传统的回归分析一样，这些交互相关 
关系的存在，使综述者对研究的解释变得十分困难。尤其是， 
如果综述者按照变量进人关键分析的先后顺序对它们进行排 
序——不同的顺序产生的结果差异非常大。 

解决这种交互相关关系研究特征的一条途径是，像之前那 
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样通过重复汁算 g 统计 量的值，然后得出每个独立特征的同质 
性统计量。然后，当解释与效应调节量有关的结果时，元分析 
者对调节量中的交互相关关系矩阵也进行了检查。使用这种 
方法，元分析者提醒读者去研究那些容易混淆的特征并牢记这 
些关系的推论结果。 

根据效应置测置指标得出的不同结果。 最后一个实际问 

题是 •.从 某种程度上讲，同质性统计量的结果取决于所选择的 
效应量测量指标。比如，同一组数据会产生什么样的结果，主 
要取决于使用 r 统计量，还是 d 统计量去表达这种关系。这是 
因为 r 指数和^指数之间并不存在由线形转换联系起来的关 
系。在原始数据分析中，也存在出现不相等结果的问题——就 
是说，对同一数据进行原始统计分析，使用参数统计或非参数 
统计会产生不同的结果。然而，在原始统计分析中，这种方法 
与另一种方法之间的差异已经形成，并且对每种方法相关适应 
性的评估也相当容易。所以，对于同质性统计，这些基本规则 
并不是十分清晰。 

总之，有关实际问题的解释，以及元分析公式的精确统计性 
质正在逐渐显现。对效应量中方差的正式分析，是任一包含大 
量比较研究综述的一个重要组成部分，这一点是很明确的。还 
有一点要特别注意，在采用这些统计量及描述它们如何应用时， 
元分析者必须特别谨慎。只要有可能，对它们也应该进行灵敏 
度分析，即为什么不同的方法会导致相同或不同的结果。 

原始的教掂分析 

合并独立研究结果最理想的方法是，整合从每个相关关系 
比较或估计中得出的原始数据。使用产生作为分块变量的数 
据进行比较，独立数据点就可以放人方差分析或多元回归分析 
中。显然，能够得到的综合原始数据的例子非常少。原始数据 
很少包括在研究报告中，所以如果综述者企图从研究者那里获 
得原始数据 ，一 般都不会成功（见第4章）。 

然而，如果综述者知道与每个比较相关的均值和标准差， 
综合原始数据的好处就可以实现了。使用均值和标准差的一 
个问题是，通常在独立比较中的因变量测量彼此之间是不相称 
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的——也就是说，值域不同，他们使用的测量工具也不同。当 
然，综述者可以在每个比较中使采用的测量标准化，从而使它 
们相称。此外，虽然肯定不像报告原始数据那样报告得那么 
少，原始研究者报告中也极少报告个别组的均值和标准差。 

在大多数情况下，从比较中得出的原始数据是可靠的，由 
同质性 统计分析的调节假设，可以通过统计交互作用进行检 
验。也就是说，通过使用比较特征作为组间因素，使用研究内 
的比较作为组内因素，元分析者可以对累积的原始数据进行混 
合模型的方差分析。如果任何比较范围内的效应的影响取决 
于调节量，则它将会作为分析中的显著性交互作用出现。由研 
究特征（组间因素）导致的显著性主效应表明，研究中各组间 
因变量的总体均值互不相同。 

假设找到了 12个有关酒精对攻击性影响的研究，而每一 
个研究的原始数据是可靠的。此外，在这些研究中，假设有六 
个只在男性中进行，而另外六个只在女性中进行。元分析者会 
把酒精与控制比较作为组内因素，把男人与女人的比较作为组 
间闵 素进行分析。酒精与控制比较的主效应表明了有关药物 
效应的研究产生的证据。与使用其他性別的比较相比，性别的 
主效应表明，使用一种性别的比较显示的攻击性较强 （ 自变 
量）。最后性別和处理方式之间的显著性交互作用表明，洒精 
的效应取决于参与者是男人还是女人。 

之前提到，综述研究中这种类型的分析受到两方面因素的 
限制： ■-是获得原始数据比较 困难； 二是不同的研究者使用的 
测量尺度小‘同。从个别比较中分析原始数据是累积研究结果 
的最佳策略。这是综述者应该追求的分析水平，在采用其他不 
常用的合并研究结果的方法之前，首先应该评佔这种方法的可 
行性。实际上，这种方法很少使用。 

复杂的教据分析 

之前描述的元分析统计方法，适用于分析实验性研究和描 
述性研究中的两变量关系。为了与使用更复杂的方法来表达 
变量之间的关系相适应，元分析方法论学者正致力于扩展统计 
综述程序。这些努力包括因素分析的综述方法 （ Bushman ， 
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Cooper & Lemke ，1991) 和相关矩阵，目的是为了检验多变量模 
型和解释模型 （Beker & Schramm ，1994 ) 0 


故启量中的方差与综述户生的证接 


对效成量中的方差进行检验得出的证据，就是综述产生的 
证据。也就是说，综述者不能通过说明因果关系来解释研究特 


征与效应量之间的关系。正如前面详细讨论的，在许多例子 


中，不同的研究特征会彼此相关，所以在这些相关特征中，想确 
定到底哪一种因果行为是真实的是不可能的。闵此，对综述研 
究来说，综述产生的证据是唯一的，它对我们理解研究主题起 
到了重要的补充、帮助作用，但是在此基础上声明的因果关系 
是比较危险的。通常，当综述产生的证据表明一种关系存在 
时，综述者可以用它来为原始研究者指出未来会富有成效的研 
究方向。 


数据分析的效度问题 

综述者釆用的推论规则可能不恰当，这是数据分析阶段出 
现的第一个效度威胁。在非定暈分析中，因为综述者很少详述 
这些规则，所以很难评估它们是否使用的恰当。在定量分析 
中，根本的统计检验假设是众所周知的，它会被排除一些综述 
中的统计偏差。虽然不可能全面地检验推论规则，何元分析的 
使用者至少能非正式地判定它们是否满足了统计假设要求。 
不管采用什么方法，总存在这样一种可能性，即综述者已经使 
用了一种“无效的规则”来推论目标总体的特征。 

综述产生的证据可能被误解为支持声明的因果关系，这是 
数据分析阶段出现的第二个效度威胁。我在本书中多次提到， 
综述里的任何变量或关系，既可以用研究产生的证据，又可用 
综述产生的证据来检验。然而，在不同类型的证据的基础上得 
到的结论，它们的学术地位存在着很人差异。研究产生的证据 
能够建立变量间的因果优先秩序，而综述产生的证据纯粹凭的 
是联想式的记忆。 
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保护故皮 

研究者对他们的数据作什么样的假设是恰当的呢？对此， 
主要取决于综述者的目的和这一问题领域的特征，这对定暈分 
析方法和非定量分析方法都是适用的。 一 种比较好的建议是， 
综述者应该向公众公开他们的推论规则并接受 检查： 

1 . 研究者在向读者传递他们的结论和推论规则的信息时， 
应该尽可能地明确其指导假设。 

2. 如果有任何证据显示了解释规则对效度的影响，这条证 

据就应被描述出来。没有这种信息，读者就不能评估结 
论的效度。如果研究报告中没有论述这一问题，就可以 
认为它是不完整的。 • 

3. 只要有可能，综述者应该使用需要不同假设的多 敢方法 
来分析他们的数据。如果使用不同方法得到的结果一 
致，就可以给予更大的置信度。 

4. 综述者应该仔细区分研究产生的证据和综述产生的证 
据。即便使用了每个设计特征的研究数量比较大，然而 
其他一些未知的方法论特征与发现关系的方法特征则可 
能相关。许多综述产生的推论会让人感到含糊不清，但 
它们说明 了：如 果这种类型的证据表明了一种关系存在， 
则综述者需要在一个笮独研究里对这一关系进行检验。 

练习 


Z 分数 

研究结果 单尾 d , 


1 

366 

- 0.84 
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96 

1.55 

.35 

3 

280 

3.29 
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4 

122 

0 

.00 

5 

154 

1.96 

.33 

6 

120 

2.05 

.41 

7 

144 

-.64 

-.28 
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1•对于表中所列的使用了加 Z 法的七个研究，合并它们的 
Z 分数和概率水平是什么？使用加权加 Z 法呢？失效安全数 
是什么？ 


2. d 加权平均指数是什么？ 

3. 这七个研究的效应最是同质的吗 
算机软件包计算出你的答案。 


使用人工算法和计 



第 6 章解释和呈现阶段 


第6章描述了综述研究报告的一般格式。它和原始研究使用 
的格式相类似，包括问题介绍、综述方法、综述结果以及解释和讨 
论部分。特别说明了在综述中如何描述列表数据和解释效应量。 
最后，本章介绍了糟糕的报告对效度产生的威胁及如何避免这些 
威胁。 


唯有与科学界共享结果时，研究才是完整的。 

——美国心理学会 （1994, p . 1) 
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将研究者的笔记、打印稿和手稿等转换成公幵出版的文 
稿，对知识的积累有着深远意义。如果研究者没有对研究过程 
进行洋细解释和说明，那么研究者为了让人们相信他们的科学 
研究所做的一切努力都是徒劳的。 

撰写社会科学研究报告 

美国心理学会 （ APA ) 编撰的《出版手册》（1994)®，介绍了 
众多社会科学学科的原始研究指南。《手册》详细阐述了报告 
的类型和格式，甚至对语法如何准确使用、观点如何清晰表达 
均给出了指导意见。关于如何评估研究具体方囱的重要性和 
所得出的结论，《手册》给研究者提供了更详细的指导，并告诉 
研究者如何报告统汁数据以及在哪里报告。同时，在说明哪些 
研究成果对读者具有重要作用时，手册提供了更明确的指导判 
断。例如，众多研究者做的统计检验比他们认为读者会感兴趣 
的检验要多得多。因为在某些主题领域可能不会产生研究结 
果，因此，统计显著性不能作为一般性指导原则。 

显然，该《手册》不能因这一疏忽而受到指责。我们不口 J 能 
提供具有一般性、精确性的指南来界定研究结果的科学重要 
性。事实上，这一问题本身也是在科学社会学分支学科内研究 
的主题，并具体体现了科学事业的创新精髓。我们不能仅仅把 
它简化成一个公式使用。 

综述研究者的窘境与原始研究者遇到的类似，但前者在程 
度上更甚。在描述最终的研究报告如何形成时，综述者没有类 
似于《出版手册》 （ APA ,1994) 一样的获得一致认可的指导方 

针。《手册》有三处地方谈到了综述文章。它详细说明了一篇 
综述文章，包括元分析，作为“已出版材料的批判性评估” 
( P .5), 并说明了“综述文章的内容，不像实证研究的报告部 
分，是由关系而非年表安排的” （ P . 5)。元分析的报告格式看 
起来已经演化的与原始研究没有什么不同了。然而，在许多情 


①本书中文版由重庆大学出版社出版，中文书名为《美国心理协会写作手册 
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况下，综述者会选择一种便于解决某一综述问题的格式。 

近来，帮助综述者形成最终的研究报告所作的努力工作已 
经显现。然而，对综述者而言，报告指南的相对缺乏也是一个 
问题，因为不同的编辑判断会造成读者对综述结论理解上的差 
异。这种差异不是体现在结论的方向和关系量大小上，而是体 
现在综述的某些特殊方面和结果是否包含在报告内。一位综 
述者可能认为一个方法论特征或结果会将原稿搞“混乱 （ dut - 
ter )”。 另一位综述者可能认为一呰读者将会对同一条信息感 
兴趣，所以认为导致这种“混乱”是值得的。 

综述研究报告的格式 

在整本书中，我已经尝试着将指导原始研究的规则扩展到 
综述研究中。这不应该让人感到意外，人们会发现综述报告的 
格式主要取决于我们如何报告原始研究。原始研究报告基本 
可以分为介绍、方法、结果及讨论四个部分，这是一•个很好的综 
述研究分析框架。原始研究报告分为四个部分，主要是为了强 
调那些能够使读者充分评佔综述的效度和效用类型的信息。 
接下来的部分，我建议某些类型的信息应该包括在各个部分 
中，同时，也假设最终报告描述的是使用元分析方法得到的综 
述结果。渎者可以参考霍尔沃森，莱特，辛格和威尔特，以及罗 

森塔尔 （ Halvorsen ，1994 ； Light ； Singer ； Willett ， 1994; Rosenthal , 

1995) 的报告获得其他的建议。 


介紹部分 

一篇综述研究的介绍部分主要是为随后的研究结论打好 
基础。它应该包括对研究问题概念上的阐述和对问题重要性 
的陈述。在原始研究报告中，介绍部分往往比较简短，并且引 
文被严格地限制在与原始研究主题紧密相关的少数文献中。 

在综述研究中，介绍部分应该非常详细。综述者应该试着 
概略描述所要研究的问题，包括理论、实践和方法历史。研究 
中的概念来自哪里？它们是不是以理论为基础，就像人际期望 
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效应的概念那样，或者是不是以实际情况为基础，就像家庭作 
业的概念那样？围绕概念的意义和效用，在理论上是不是有争 
议呢？理论如何预测概念之间的相关性？不同的理论之间会 
不会存在冲突性预测？ 

综述研究的介绍部分必须考虑问题出现的背景，尤其当 
综述者打算报告元分析时，围绕着研究问题，对定性和历史的 
辩论给与充分的关注是至关重要的。否则，综述者会因为只是 
把经验数据简笮的综合在一起，而缺少对其提供充分的概念和 
理论支撑而饱受批评。 

正如在第2章提到的，一篇综述研究的介绍部分也是综述 
者讨论以前所做的综述研究的主题之处。这一综述回顾应该 
突出从已有综述中学到的东西，同时也应指明它们的不一致之 
处和方法论上存在的优缺点。同时，新综述里重点提出的、尚 
未解决的经验性问题和争议性问题，也应该突出强调出来。 

总之,综述研究的介绍部分应该紧紧围绕着所研究的问 
题，对涉及的理论、概念和实际问题进行总体描述。还应该概 
述以前所做综述的观点、存在的争议及遗留下来尚未解决的问 
题，并指明新综述应该关注的方面。 

方法部分 

方法部分的目的是描述研究是如何进行的。综述研究的 
方法部分与原始研究报告的方法部分大不相同。大多数综述 
的方法部分需要说明六个不同的问题。 

文献检索的细节 

首先，综述研究者应该详细描述文献检索的细节。包括用 

癱 

于检索研究所列出和描述的每条渠道。最好也包括选择使用 
这一来源的理由，特别是在说明不同来源之间如何相互补充以 
减少研究中的样本偏差时候。为了方便使用摘要服务、索引服 
务和参考书目，综述者应该报告它们涵盖的年份及指引检索的 
关键词。如果个人研究也包括在综述里，也应该加以说明。 

文献检索的信息来源、关键词、涵盖的年份可能是方法部 
分最关键的方面。它们为读者提供了文献搜索的精确信息，也 
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为综述结论的信度提供了保证。在重复使用文献时，为什么同 
一主题领域的不同综述会得出相似或冲突的结论，当别的学者 
尝试着理解此问题时，综述者描述的文献检索将得到最严密的 
检查。 

选用研究的标准 

其次，我要说明的是文献检索选用研究的标准问题。通过 
阅读报告标题、摘要或整个报告做出的相关决定有多少？什么 
样特征的研究被排除了呢？由于任何特定的原因被排除在外 
的研究有多少？例如，如果一篇综述仅包括发表在出版刊物上 
的研究，有多少综述者已知的潜在相关但没发表的研究被排除 
在外呢？ 

对视为相关的被排除在外的研究进行一般的、定性描述同 
等重要。例如，在酒精对攻击性行为影响的综述研究中，综述 
中的每个研究都必须满足两项标准 ：（ a ) 因为综述者对检验因 
果关系感兴趣，所以不论受试者是否饮酒，研究必须具有实验 
上的可操 作性； （ b ) 研究必须测量攻击性行为，而不仅仅是一 
种臆想、情感或行为意向。 

当读者检查综述中使用的相关标准时，对于综述者如何将 
概念和操作融合在一起使用，他们将进行严格评估。如果一篇 
综述的结论引起了读者们的争议，那么他们可能更加关注使用 
的相关标准。有些读者可能发现相关标准太宽泛了，就连他们 
认为是不相关的操作性定义的概念也包括在内。当综述者分 
析研究结果的潜在调节量时，他们期望这些关注并使用这些特 
征。其他读者有可能会发现操作性定义的范围太狭窄了。于 
是，综述者可能会检查被排除的研究，从而确定他们的研究结 
果是否会影响综述结果。 

总之，相关标准描述了综述者如何使研究从概念层面跨越 
到操作层面。对这一程序的描述将以综述结果中具有建设性、 
理论性和概念性的讨论为中心。 

原始研究中使用的方法 

再次，除了对包括的证据进行总体描述之外，方法部分也 
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是综述者对通常出现在原始研究中的方法进行描述的好地方。 
在综述研究中，对原型研究的介绍十分必要，但由于综述里包 
含了太多的研究，因此不可能逐个介绍。综述者应该选择被多 
数研究使用的若干具有代表性的方法为例进行研究，并详细描 
述这些研究的细节。如果发现只有少数几个相关研究，这个过 
程就没有必要了，就可以将研究中使用的方法与研究结果合并 
起来 一 起描述。 


独立调查结果 的礴定 

第四个 m 要主题涉及综述者如何确定独立调查结果。在 
确定是否把从同一实验室、报告或研究中进行的多電假设检验 
作为独立或非独立的数据点时，综述者应该阐明采用的划分 
标准。 

研究编码的细节 

第五部分描述了原始研究结果的特征，综述者可以检索或 
保留它们以分析研究结果的潜在调节童。换句话说，综述者应 
该完整地描述编码单上搜集的每一个研究的信息。在这里应 
该描述所有的特征，甚至包括那些没有经过正式检验、在以后 
的文章中也不会讨论的特征。这就提醒读者要留意那些要求 
综述者可能要在日后检验的特征。另外，有关编码信度的信息 
也应该包含在这部分。 

在方法部分，对于检索到的每个研究结果的特征，没有必 
要描述它们在文献中出现的频率，最好在结果部分对其进行 
阐述。 


统计程序和惯例 

最后一个部分介绍了综述者对结果实行定量分析时采用 
的程序和惯例。为什么要选择某种特定的效应最进行测量 
呢？能不能对效应量进行调整以消除偏差？如何处理缺失结 
果？选择什么样的分析技巧来合并独立检验结果并分析整个 
检验结果中的变异？此部分应该包含选择使用每一程序及惯 
例的理由，并考虑这些选择对研究综述的结果带来什么样的 
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影响。 

结果部分 

结果部分应该简要说明描述的文献、独立研究结果的综述 
及能够证明任何有关文献的推论是作为一个整体使用的证据。 
综述结果部分的变化很大程度上取决于研究主题及证据的性 
质。下面，我将分五个部分来阐释此部分包括的内容。 

描述性统计 

在第一部分，综述者应该告诉读者研究报告、研究、比较或 
相关关系检验所采用的独立样本的总数。此部分也应该分项 
列出指引这些检验的交流渠道。例如，有时就像对提供了大量 
检验的某些期刊的描述一样，在出版的报告与未出版的报告中 
发现的检验数量也是重要的。 

通常，综述者会展示一张表，上面列出了综述中包括的研 
究。这张表同时也会描述每个研究中几个 t 分关键的特征。 
例如，家庭作业综述的结果首次报告在一本书里 （ Cooper , 
1989)。在其中一章，我分析比较了做家庭作业和不做家庭作 
业学生的学习成绩的研究。这一章以11份做家庭作业的研究 
和1962年以前不做家庭作业的研究为开端进行叙述说明。如 
果这些早期的研究包含了必要的数据，但没有统计合并效应 
量，则应该计算出效应量估计。表里介绍了第一作者的姓名、 
发表年份以及1962年以后进行的每项研究的13个特征。本 
文归纳总结了这组研究的特征^这些研究也在元分析中使用。 
+文也描述了一种不在元分析中使用的研究，因为它的结果不 
能和其他的研究进行等质等最的转换，见表 6. 1。 

某些文献的综合描述性统计同样也应该进行报告。主要 
包括值域、平均数、中位数和报告出现的 U 期等； 每个样本的范 
围、平均数和参与者的中 位数； 样本中具有代表性的其他重要 
参与者特征的出现频率，例如性别、年龄和地位差异这些可能 
与研究结果相关的一般性 特征； 如果与研究相关，样本的地理 
位置也应该进行报告。 
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第 6 章解释和呈现阶段 


这些可能只是出现在结果开头部分的潜在描述性统计中 
的一小部分。一般而 H ， 为了补充说明在介绍和方法部分包含 
的定性研究概况，第一部分应该给读者介绍有关文献的广泛的 
定量研究概况。 

另外，它应该使读者感觉到包含在研究中的人、方法和事 
件所具有的代表性。正如第3章提到的，与独立研究结果相 
比，读者也应该有理由相信，综述研究与一个感兴趣的主题领 
域的个体数量和事件更直接相关。无论此分析的结论是什么， 
通过结果部分，读者可以通过评估抽样人群和事件具有的代表 
性，从而评估综述结论的特征。 

计票与合 并显著 性水平 

第二部分描述的结论应该说明计票与合并显著性检验的 
结果。综述者应该提供正的、统计显著的，正的、统计非显著 
的，负的、统计显著的，负的、统计非显著的效应量总数。在使 
用独立样本作为分析单位时，应该提供这些统计。同时，使用 
效应最或某个研究结果作为分析单位，也可能会给我们提供相 
同的统计。 

如果元分析者进行了与计票相关的符号检验，他们的结果 
应在这黾报告。如果进行了合并显著性水平检验，就应该遵循 
计票结果。 

使用茎叶图来描述构成元分析数据库的效应量是一个好 
方法。在简单的茎叶图中，每个效应 a 的第一位小数作为茎， 
置于一条垂直线的左边。第二位小数作为叶，置于垂直线的右 
边，那么这些作为效应量的叶就共享着同一个茎，茎就是相同 
的线。共同使用着相同茎的效应量的叶被置于同一行上。 

图 6.1 向我们展示了一个相对比较复杂的茎叶图。我用 
它说明 f 50个研究的结果，这些研究结果与学生报告的每晚 
所做的家庭作业数量有关，主要用以衡量他们的学习成绩。在 
这里，茎就是效应量值的短区间 （ 2/ IOOths ), 叶则根据样本中 

学生的年级水平来区分效应量。水平线右面的每一个字母代 
表一种相互联系。这个表让读者很容易看到50种相关关系的 
形状和分布，并且注意到相关关系通常为正，也很容易发现相 
关关系量与学生年级水平之间的关系。 
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图 6.1 花在家庭作业上的时间与成缋之间的关系分布 

这些相关关系根据年级水平相 区别: E ，3 —5 年级； 

J ，6 —9 年级; S ，10— 12年级 
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总体效应量 


第三部分主要介绍了总休效应量分析。 

这种分析一开始描述了效应量的值域、平均数、效应量的 
中间值和围绕着集中趋势评估的95%的置信区间。在这里，整 
组相关效应的总体同质性检验结果也要进行描述。 

在我的家庭作业报告中 指出： 当把做家庭作业学生的成绩 
跟没有做家庭作业学生的成绩进行比较时，我们会发现，平 
均指数为 0. 21，或者，同 54. 7%不做家庭作业的学生相比，做 
家庭作业学生的平均成绩要高一些。围绕着此估计95%的置 
信区间的范_是从 rf =0. 13到 d =0. 30。在此置信区间而不是 
一系列合并显著性检验的基础上，我得出的结论 是：做 家庭作 
业和不做家庭作业之间的差异允许拒绝一项虚无假设。同质 
性分析表明，与预计的 由于抽 样误差导致的变异性相比，指 
数产生的变异性要比前者多得多 （ Q t ( 19) =57.41 , p <(). 001 ) 0 

人际期望效应的人格调和的元分析报告里展示了一张表， 
介绍了五种人格类型的平均 r 指数和为了合并显著性水平与 
加 z 法相对应的两种混合类型的结果。见表 6. 2。 


表 6.2 平均效应量，累积的 z 分数，每一人格小组的联合概率 


人格维度 


社会影响的需求 
表现力 
亲切性 
其他 

所有的维度合并 


易受影响性 
解读能力 
其他 

所有的维度合并 


实验者 


22 

受试者 

11 



0. 15 


0.07 
0 . 11 


26 


0.05 
0. 11 
-0.05 
0.03 


2.94 

1.79 

1.71 

1.29 

3.90 


2.21 

2.60 

1.37 

3.58 


0.0032 
0.0734 
0.0872 
0. 1976 
0.0001 


0. 0300 
0.0094 
0. 1706 


0 . 



Hazelrigg ( 1988). Copyicht 1990 


sociation . Reprinted by permission . 

注:通 过样本量来测 M 相互关系.每个研究仅涉及 每-人 格维度的一种相互关系。概率 


水平是双尾的各种各样的其他维度效应的方向是建立在研究者预测的基础之上、 
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这个分析告诉 我们： 实验者对社会影响力的需求 O = 
0. 15) 、受试者的易受影响性 （ r =0. 05) 和解读能力 （ r =0. 11) 

同人际期望效应量是显著正相关的。 

酒精和攻击性的元分析报告使用了盒须图真实地展现了 
d 平均指数和它们的离散程度。见阁 6. 2。盒子涵盖的值包含 
在中值的上下叫分位值内。穿过盒子的水平线就是中间值，垂 
直穿过盒子的线（叫做“须”）向上或向下达到最大值或最小 
值。这个报告告诉读者 d 平均指数和以下四对总体比较有 
关: 酒精与控制、酒精与安慰剂、没有安慰剂与控制、安慰剂与 
控制。在这叫对比较里 W 平均指数分别是 0.25 、0. 61、0. 06和 
0. 10。指数比较了酒精组与控制组和安慰剂组的置信区间, 
此区间不包括0,结果显示，在喝酒的情况下，人的行为更具攻 

击性。 


2.0 


酒精 

酒精 

抗安慰剂 

安慰剂 

与 

与 

与 

与 

控制 

安慰剂 

控制 

控制 


图 6.2 四种比较类型的盒须图 

SOURCE : Cooper and Hazelrigg ( 1988). Copyright 1990 by the American Psycho ¬ 
logical Association . Reprinted by permission . 

注：+，样本 均值; 0,轻度离群值 
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分析效应量的影响 


第四部分用來描述分析的结果，意在说明调节效应量的研 
究特征。对于每个调节量检验，元分析者应该说明研究特征的 
结果是否与效应量中的差异显著相关。如果调节量被证明是 
显著的，那么元分析者就应该说明每组研究的平均效应量和置 
信区间。 

我用一张表总结了显著性结果，这些结果来自于我对家庭 
作业效应最的调节 M 搜索，见表 6. 3。需要注意的是，根据使用 
的转换分析单位，我检验的每一调节变量的结果都是建立在稍 
有不同的一些研究结果的基础上。在本文中，这些研究结果同 
时也描述了调解变量中的相互关系。 

本文也包括说明与这一效应量的调节量相关的其他分析。 
这些描述包括了由第三变量控制的家庭作业效用的检验结果， 
还包括从态度上分析家庭作业效用的研究结果。 

交互作用的描述 

最后，综述者应该细分在单一研究中发现的交互效应。例 

如，在酒精与攻击性的综述中包含 T 一个表，里面列出了 14项 

研究，这些研究归纳了原始研究者认为可能会影响酒精效应的 

第三操纵变量。第三变量包括操纵情景，如观看富有攻击性或 

无攻击性的电影、睡眠剥夺以及消极情绪诱导。通过检验每个 

变量，我们得到了酒精操纵交互作用的统计检验结果，见表 
6.4, 
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表 6. 3衡置学习成绩时有家庭作业与无家庭作业的效应置比较 


95%的置信区间 



n 

低估 

计值 

中间 

值 

高估 

计值 

总体 (/[19] =57. 41 ,/> <0.001) 

20 

0. 13 

0.21 

0.30 

年份 (/[ l ] =8. 00 ， P <0.01) 

1960 s 

6 

0.01 

0.16 

0.32 

1970 s 

10 

0.06 

0.18 

0.30 

1980 s 

4 

0. 23 

0. 48 

0. 73 

平衡和重复测量(/ [1] = 4 . 68，；) <0.05) 

有 

4 

- 0. 35 • 

- 0. 08 

0. 19 

无 

16 

0. 14 

0. 24 

0. 34 

实验者(/ [1] =9. 52,/ xO . Ol ) 

老师 

8 

0.25 

0.41 

0.57 

非老师 

12 

0. 02 

0. 12 

0. 22 

处理的持续时间 (^[1] =3.89^ <0. 05) 

10周 

12 

0.20 

0. 32 

0.44 

超过10周 

8 

-0.03 

0.09 

0.21 

作业数量 U 2 [ l ] =15.43，/><0.01) 

1 - 3每周 

14 

- 0.01 

0. 09 

0. 19 

4或5每周 

6 

0. 30 

0.44 

0. 58 

年级 0 t 2 [ l ] =3. 75 <0.06) 

4-6 

13 

0.05 

0. 15 

0. 25 

7-9 

5 

0.09 

0.31 

0.53 

10-12 

2 

0. 33 

0.64 

0. 95 

科目(/[2] =19.13，/><0.01) 

数学 

25 

0. 10 

0. 16 

0. 22 

阅读和英语 

13 

0. 18 

0.32 

0. 46 

科学和社会研究 

10 

0. 38 

0. 56 

0. 74 

数学领域(/ [3] =6,79，/><0.01) 

计算 

9 

0. 12 

0. 24 

0. 36 

概念 

8 

0. 07 

0. 19 

0.31 

问题解决 

5 

-0. 12 

0. 02 

0. 16 

总的或非具体的 

3 

- 0.01 

0. 26 

0. 53 

结 果测量(/[ I ] =6. 49, p <0. 02) 

班级测试或年级 

15 

0. 18 

0. 30 

0. 42 

标 准测试 

5 

-0.07 

0.07 

0.21 


资料来源 : Cooper( 1989 ). Copyright held by author. 
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m 6 m 解释和呈现阶段 \n 


总之，结果部分应该包括综述者对引用文献的总体定量描 
述、对总体关系强度的描述以及关系调节量的搜索结果。这些 
都为以后的实质性讨论奠定了基础。 


讨办部分 

综述研究的讨论部分起的作用跟原始研究讨论部分起的 
作用是一样的。讨论一般至少包括五个组成部分。 

第一，综述者应该描述综述中总结的主要结果。这种总结 
不需很长，但是应该摘录出在后面的文章中将会讨论的主要结 
果。第二，综述者应该描述综述屮重要的效应 M 大小，并解释 
其实质意义，同时也应该尝试着评估发现的效 应量是 大还是 
小？是重要的还是微不足道的？ 

第三，综述者应该分析同预测相关的结论和其他事先断言 
的关系的结论。通常讨论了本综述的结果与以前综述的结果 
有何不同，为什么出现这些差异是必要的？综述者不仅需要分 
析他们讲述的理论结果而且还要说明在介绍部分中描述的理 
论争辩。 

第四，应该包括对研究结果进行的一般性评估的讨论，特 
别是在限制条件下进行的讨论。例如，如果发现家庭作业和成 
绩之间的关系是正相关的，综述者应该说明是否可以据此进行 
评估，这一关系是否适用于所有的年级水平和主题事项？ 

第五，综述者应该对在以后的研究中需要分析的主题进行 
讨论（见 Eagley & Wood ， 1994)。主要包括针对综述结果提出 

的新问题，还包括由于含糊的综述结果或缺乏预先原始研究所 
导致的遗留下来的尚未解决的旧问题。 

总之，原始研究和综述研究的讨论部分常用来对结论的实 
质性解释提出一些建议，这些建议可以解决以前研究中存在的 
争议，也为今后的研究指明了方向。 

效应量的实质性解释 


在定量分析中，讨论部分的功能之一就是解释群组的差异 
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大小或关系。 

一 旦综述者给出了效应量，他们如何知道效应 ft 是大还是 
小，是有意义还是微不足道的呢？因为统计显著性不能作为一 
个衡量标准使用，所以，小效应量可能是统计显著的，大效应量 
则可能是不显著的。因此，我们必须制定一系列的规则来确定 
某一给定效应量的解释性价值或者是实际价值。 

科恩 （Cohen, 1988) 尝试着解决了解释效应量估计的问题。 
在社会科学领域，他提出了有关小、中、大效应量的一些一般性 
定义。科恩的这种分类，主要是用来反映在行为科学领域中遇 
到的作为一个整体的具有代表性的效应量。同时，他也提醒大 
家，这些分类说明并不能解释在特定的社会科学学科或主题领 
域黾 的关系程度。他的一般分类，只是说明了如何对效应量进 
行解释。 

科恩 （Cohen，1988) 认为，如果 d =()• 20、r =0. 10时，效应 
最就是小的。他写到“在人格、社会和临床心理研究中发现的 
许多效应量可能是小的……是由于使用的有效性测量的衰减 
和通常包含的问题比较微妙所致” （ P . 13)。根据科恩的观点， 
大效应量经常出现在以下领域 ：如 ，“社会学、经济学、试验和生 
理心理学及以潜在变量或者是良好的试验控制为特征的研究 
领域” （p. 13 ) 。科恩认为当 d = 0. 80、 r = 0. 50时，效应量就是 
大的。中间效应量在这两个极值中间，即 d =0. 50 、r =0. 30。 

科恩 （Cohen,1988) 的解释可以用来说明比较效应量的相 


对性。假设在人际期望效应的人格调和的研究综述里，平均 r 
指数的值是0.30。那么关系量该如何解释呢？显然，主要是根 
据被选杼作为对比因素的其他关系进行解释。根据科恩的观 
点，这就是中等大小的行为科学效应量。也就是说，同行为科 
学领域中的其他关系相比，这将是一个平均效应量，或大或小 
并不会让人们感到奇怪。如果我们接受科恩的建议，认为人格 


关系明显小于 


0.30,那么，同其他的人格效应量相比，这种 


效应量最好描述为大。 

将某一具体的效应量同在其他学科或某一门学科里发现 
的效应 M 进行比较是件非常有趣的事，但是在大多数情况下， 
这种比较提供的信息量不大。当我们将效应量同包含相同或 
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相似变董的效应量进行比较时，得到的信息量最大。就像科恩 
(Cohen ,1988) 的指南指出的，将一个专门主题领域的效应量与 
某一标准进行比较，比较的范围包含“所有的行为科学”，那么 
这就是我们可信的最好的对比元素。我们很难找到对有关学 
科、分支学科、主题领域甚至是单个变量或操作这些方面的平 
均效应暈估计。当然，如今这些方面的估计非常多。因此，一 
个效应量是“大”还是“小”，主要取决于各种有关的估计量。 
从概念上讲，一些对比的效应量至少应该与特定主题领域中发 
现的效应密切相关，包括在一些感兴趣的关系中包含的相同 
变量。 

除了对比估计的多项相关选择外，其他两个解释效应 a 的 
指南可能也是有用的。首先，综述者可以评估在消费者的研究 
中估量了多少种关系。但是，如何判断这项研究的实际意义是 
个难题。我们可以用一个假设案例来说明这一点。假设1970 
年做的一项研究 说明： 如果汽车司机有规律地检测他们的轮胎 
气压，就会发现每加仑汽油可以使汽车行驶22英里，而对没有 
检测轮胎气压的司机来说，每加仑汽油只能使汽车行驶2 0英 
里。在每一组，均值的标准差是每加仑4英里。这就说明，平 
均每位司机一年行驶10 000英里，汽油的价钱是每加仑 0.30 
美元，通过每年检测轮胎气压，司机就会节省45加仑汽油，也 
就是 13.50 美元的费用。就 d 指数而言，检测气压的司机和未 
检测气压的司机相隔一个半标准差 （rf =0.50) ，或者说，检测者 
平均行驶的里程会大于约69%的不检测者。在1970年，大家 
可能忽视了这种效应。实际上，它甚至可能被认为是无关紧要 
的。但是，1997年的研究也产生了相同的结论，就是说每加仑 
1.30 美元的汽油价格可能会引出许多不同的反映。对于大多 
数司机来说，每年使用少于45加仑的稀缺资源并节省 58.50 
美元的费用是非常让人乐于接受的。因此，研究者很确信的认 
为此项试验的结果具有很强的实际意义。 

如果将气压检测的效 用同汽 车燃油经济性的其他效用进 
行比较 （如： 对发动机的调整和遵守速度限制），这种比较得到 
的结论可能仍然会认为效用是小的。但是，研究者可能会争辩 
道 ：即使 效用的解释性价值相对较小，但它仍然具有很强的实 
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际意义。例如，我们需要考虑迸 n 的石油量及其可能对环境造 

成的污染（社会价值指标）。当然，与其他方法相比，人们可能 

认为实行气压检测法的成本相对便宜些。莱文和他的同事们 
( Levin ， 1987 ; Levin ， Glass ，& Meister ，1987 ) 就建立相对成本效 

益的社会计划制定了一些基本规则。 

第二个对效应量进行解释的指南涉及研究方法，这一点在 
文中已经提到了很多次。当我们选择了对比效应量，相对效应 
量不仅会反映出关系的解释力，也会反映出数据搜集的差异。 
在其他所有条件都相同时，建立在严格控制基础上的研究产生 
的效应量要比控制较弱的研究产生的效应量大（如 ：围 绕着均 
值产生的较小偏差）。例如，与实验室里进行的轮胎气压检测 
的实验 （ c /=0.50 时）相比，汽车正常行驶条件下测得的结论要 
比前者更有说服力。效应量是操作性强度的一个函数 （ 如尚未 
检测的汽车轮胎欠压的程度），同时也是测 M 敏感度的一个函 
数（如计算加油 M 和汽油使用量），也是对参与者群体限制的 
一个函数（如所有的汽车和仅是新车）。这说明，研究方法可能 
会影响对效应量的解释。 

最后，我们应该牢记，报告在综述研究中的效应量估计不 
仅受综述过程中使用的方法的影响，而且还受到综述研究本身 
使用的方法的影响。其他综述者若是使用了类似的检索、相关 
性原则和统计程序，他们应该可以发现相似的效应量。有时， 
为了说明任何会对研究结果产生影响的偏差，阐释综述结果的 
研究者和决策人需要调整效应量估计。 

总之，科恩 （ Cohen ,1988) 的描述仅仅给出了最广泛的效应 
量解释标准。其实，对一个效应 M 最有意义的解释应该来自与 
选择的其他关系量的比较，这是因为它们对研究的主题具有实 
质性意义。为了补充这种解释，应该评估任何解释的实际价值 
和研究方法对形成结论所起的作用。 

综述食例 

家庭作业和对待强奸的态度这两个综述是解释关系强度 
最好的 例了〜 对于家庭作业，做家庭作业和不做家庭作业学生 
的成绩羞异的^平均指数为 0. 21。这个效应是大还是小呢？ 
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为了帮助回答这个问题，我仔细分析了其他相关的元分析结 
果。这些研究结果列在一个表中，见表 6. 5。这个表包含了 n 
个元分析，分析了教学策略的效应和教学技能对提高学生成绩 
的作用。这些研究都来源于沃尔伯格所著的《教学研究 手册》 
一书中关于研究综述的那一章 （ Walberg ，1986 ) 。 


表 6. 5从元分析中选择效应置以分析对成绩的影响^ 


作者（年） 

自变量 

效应量 “ 

Bangert et al. ( 1981 ) 

个性化教学与传统教学 

0. 10 

Carl berg and Kavale( 1980) 

特殊班级与常规班级 

设置 

- 0. 12 

Johnson et al. (1981 ) 

合作学习与竞争性学习 

0.78 

Kuiik and Kulik(1981) 

能力分组 

0. 10 

Kulik et al. (1982) 

程序教学 

0.08 

Luiten, Ames ， and Aerson( 1980) 

先行组织者 

0.23 

Pflaum etal. (1980) 

直接指导 

0.60 

Redfield and Rousseau ( 1981 ) 

较高的认知问题 

0.73 

Wilkinson (1980) 

表扬 

0.08 

Williams et al. (1982) 

看电视量 

0. 10 

Willson and Putnam(1982) 

前测 

0. 17 


SOURCE: Cooper(1989) • Copyright held hy author. 

注 : a. 沃泊格 （ 1986) 列出的这些主题不仅包括成绩，还包括了 W 变撤。 


b. 效应量用 d 指数表示。 


比较表中的数字，我们可以看到，家庭作业对成绩的影响 
可以被描述为“高于平均水平”。表中效应量的中间值是4 = 
0. 〗0, 是家庭作业效应量的一半。在不同的主题领域，都需要 
考虑研究方法的质量。假定在不同领域测量的成绩的可信性 
和研究设计的可靠性大致相等。在家庭作业综述里，建立在效 
应量估计基础上的一些假设很可能会比其他综述更加保守。 
最后，通过比较实施的不同指孕和教学方式的相对成本，我们 
就吋以 评估家庭作业的实际价值。特别是，与特殊班级的设 
置、个性化教学和程序教学相比，家庭作业可以被认为是低成 
本的处理方式。 


182 ^ 如何做综述性研究 

在对待强奸态度的综述中，通过相互比较可以评估个体差 
异预测的相对效应量。因此，综述本身会包含有一些对比元 
素。举例来说，用来预测强奸态度的四种人口统计学差 异：态 
度持有者的性別、年龄、种族以及社会经济地位。作为预测，男 
性对强奸态度要比女性更容易接受 （r =0. 33 ) 。同此效应相比 
较，剩下的三个效应都比较小。它们的值域从12到「= 
0.06。在比较由八个不同的最表（检测了对强奸的态度）说明 
的相关关系的大小时，也用到了相似的方法。这些相互关系的 
值域从; ■ =0.54 到/ *=0. 14。 

报告撰写的效度问题 

对报告撰写的效度威胁有两个，这两个威胁闵素都与综述 
中不同的冃标群体有关。首先，在综述研究过程中，对细节问 
题描述的缺失是对效度的一个潜在威胁。作为原始研究，一个 
不完整的报告会减少综述结论的可東复使用性。其次，对效度 
的威胁还来源丁-其他调查者认为是比较重要的关系调节量的 
证据缺失。马瑟龙、布兽斯和比彻姆 （ Matheson , Bruce & 

Beauchamp , 1978 ) 认为：“正如研究某一具体的行为过程 一 样， 
很多涉及实验条件的细节被发现是相关的。” （ P . 265 ) 因此，对 
某一研究领域来说，如果综述者不能确定变 M 或调节量对其是 
重要的（或者以后是重要的），那么一篇综述就会失去它的时 
效性。相比较而言，新综述要取代比较完整的综述需要更长的 
时间，因此，完整的综述具有较强的时间概括性。 

保护故皮 

这一章主要就综述者在报告准备过程中，如何规避效度威 
胁提出了很多建议。可是,综述者不能非常全面地预知究竞遗 
漏了哪些特征或综述结果，而导致最终结果无效或陈旧。从积 
极角度来说，综述者肯定希望他们的文献可以保存较长时间。 
所以，若是综述者能够认真考虑如何发表更为详尽的、能够使 
读者清晰易懂的报告，那么报告里的文献就会保存更长时间， 



这一点也是我们所期待的。 


m 6 m 解释和呈现阶段 


练习 

1. 阅读两篇综述研究报告。在每篇综述中，将作者告诉我 
们的如下信息列出来： （ a ) 如何进行文献 检索； （ b ) 决定研究与 
假设是否相关的原则是 什么； （ c ) 决定累积关系是否存在的原 
则是什么。 

2. 找两篇研究同一主题却使用了不同方法的原始研究报 
告。计算每个报告中的效应量。比较两个报告的效应量，仔细 
考虑使用不同方法带来的结果。使用其他标准来评判每个效 
应量（大、中、小），并证明你的结论。 



第 7 章忌论 


第7章主要总结了一些与综述研究相关的问题。包括在标准 
比较严格的情况下，进行综述研究的可行性。同时，涉及综述研究 
与科学哲学的一些问题也在本章的讨论范围内。 
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与综述研究相关的若干问题不能简单地搁置在五个阶段 
模式所代表的事件中进行描述。本章中更具一般性、哲理性的 
思考，能够更好地解决本指南前面几章中列举的问题，验证之 
前设定的假设。 


重新审视效度问题 

首先，我提到了综述五个阶段中可能遇到的11种效度威 
胁。实际上，对效度的威胁也远远不止上述讨论的这些。布拉 
特和格拉斯 （Bracht & Glass , 1968) 、坎贝尔 （ Campbell ，1969〉、 

库克和坎贝尔 （Cook & C a m P hell ，1979) 扩展了坎贝尔和斯坦利 
(Campbell & Stanley ，1963 ) 列举的对原始研究的效度威胁。这 

样的效度威胁也已经扩展到了综述研究的领域中，学#们对此 
也有过多次的详细论述 （Malt & Cook ，1994)。 应该说，这不是 

一个坏信号，而是一个好信号。它体现了我们在围绕着合理 
的、科学推论的系统化问题研究方面取得的进步。 

研究综述过程中出现的影响效度的因素与原始研究中常 
常遇到的问题有直接联系。例如，在搜集数据过程中，以抽样 
样本中的“个体”代表研究的“总体”，通常被认为是对综述效 
度的一种威胁。这就表明，如果研究设计特征出现在一项研究 
的实质部分中，那么，对综述研究来说，与特定的原始研究设计 
相关的任一威胁都是存在的。在分析综述产生的证据时，当把 
研究设汁作为研究结果的潜在调节鼂时，必须仔细分析。“法 

则网络 （nomological nets ) ” （ Cronbach & Meehl , 1955 ) 的创造可 

以说是综述研究者最有价值的贡献。如果一篇综述里没有包 
含各式各样的研究设计，那么，与主导设计相关的威胁也会影 
响综述的结论。 


可行性和成本 


对综述者而言，与采用传统方法相比，使用本指南所阐明 
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的做研究综述的方法，其成本要高的多。更多的人考虑的是谁 
能够弥补他们的时间。搜索文献、编制编码框、运行分析和准 
备研究报告需要花费人们更多的时间。 

在成本特定的情况下 ，一 个极具潜力的方法使用者难道会 
因为在资源有限的情况下进行一项课题研究而感到气馁？当 
然不会。正如一件完美的事情，无可辩驳的原始研究是不存在 
的，所以很多完美的综述都停留在一种理想状态。这本指南更 
多的是为评估综述研究提供了一个标准而非一种绝对条件。 
实际上，读者们应该知道，我在书中更多运用的是案例分析，而 
不是要求读者们彻头彻尾的坚持本指南。赛克思 （ Sacks ) 、百 

瑞尔 （Berner ) 、里特曼 （Reitman ) 、安科纳 • 伯克 （ Ancona - 
Berk ) 和查尔莫斯 （ Chalmers ) ( 1987) 调查了 86个元分析，指出 
了改进研究方法是件迫在眉睫的事。方法使用者也不应该把 
本指南作为一个绝对标准，而要根据所要达到的目的来不断完 
善研究程序，争取使研究更加严谨、可行。 

科学方法和不一致性 

实际上，尽管做综述研究可能意味着综述者必须完成一件 
“不太完美的作品”，何在综述研究过程中，他们仍然必须要严格 
遵守科学的方法论。当前，至关重要的科学要素正从传统的综 
述程序中消失，这就成为综述者对以前所坚守的信念产生怀疑 
的潜在影响因素。在诸多案例中，原始研究者在进行研究时，往 
往伴随着这样一种认 识:最 终的研究结果可能会改变他们原有 
的信念体系，而传统的综述研究者则没有这种认识。通过将科 
学方法延伸到综述研究中，出现不一致性的可能性也增加了。 
罗斯和莱珀 （Ross & Lepper ，1980) 很好地描述了这种 状况： 

我们非常清楚，科学方法并不能完全排除诸如基于偏 
见同化、因果性解释和许多挑剔因素的 影响； 为了解释他 
们预料之外的或者与自己的研究兴趣不同的数据，再加上 
对自己理论的偏执，科学家们可能会对上述影响因素视而 
不见，有时甚至是故意的。……无论如何，这是科学方法 
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……它常常是增长人类对自然界和社会世界认识的方法。 
尽管存在很多不足，但它仍然是检验我们的直觉信念和直 
观方法中的错误是否减少的最佳方法。 （ p .33) 


综述研究的创新性 


在使用科学指南做综述研究时，产生了一种异议，就是这 
种研究体系束缚了创新性。在做原始研究时，有些研究者会批 
判这些准则会像“紧身衣”一样，限制了他们的创新性思维。对 
此，我完全不 同意。 严格的标准将不会产生机械的、不具创新 
性的综述。方法使用者的专门知识和直觉力将会遇到一种挑 
战，即利用或创造机会去获得、评估和分析每一个问题领域特 
有的信息。在使用这种科学研究方法时，我希望综述中的相关 
案例已经充分展示了综述者遇到的问题的多样性和复杂性。 
这些挑战也正是由科学规则创造出来的。 

结语 

开始创作本书时，我旨在认为做综述研究是一个有益的资 
料搜集训练过程，同时，这一过程也需要依靠科学标准来衡量。 
因为随着实证研究的发展和可获取信息量的不断增多，如果我 
们无法使这一研究过程更加系统化和标准化，那么综述研究的 
结论将变得令人难以置信。对于需要更多严密综述研究的社 
会科学家来说，我希望书中介绍的概念和方法已经被读若们所 
接受，并认为是切实诃行的、值得信赖的。在关 注吋论 某些特 
定领域和测试领域存在的争议时，这些方法能够使学者们对这 
些争论和异议达成共识。随着综述研究在各学科知识中的角 
色不断提升，如果社会科学家希望他们的研究主张能够保持客 
观、可信，那么对研究指南做些适当调整是不可避免的。同时， 
这也将帮助社会科学家更好地解决当今社会存在的问题，并增 
强他们对这个社会的理解。 
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译后 i 己 


《如何做综述性研究》是用于指导研究人员做综述研究的指 
南。其作者哈里斯•库珀是美国密苏里大学（哥伦比亚分校）著名 
心理学教授和社会心理学项目带头人。 

综述研究是针对某一方面的专题搜集大量信息资料后，经分 
析写成的一种学术论文，它是社会文献的一种。综述研究反映了 
当前某一领域中某分支学科或重要专题的最新进展、学术见解和 
建议，它往往能反映出有关问题的新动态、新趋势和新发展。综述 
研究的特点在于高度浓缩了几十篇甚至上百篇散乱无序的同类文 
献的成果、存在的问题或争论焦点，并对其进行归纳整理，使研究 
达到了条理化和系统化。它不仅为科研工作者完成科研工作的前 
期劳动节省了用于查阋分析文献的大量宝贵时间，而且还非常有 
助于科研人员借鉴他人成果、掌握最前沿的研究动态。 

在本书中，库珀教授所论述的有关综述研究方法是对20年前 
所形成的方法体系的创新。这本书以一种客观、系统的研究方法 
代替了主观、简单叙述性的研究方法。通过阅读本书，读者们将学 
会怎样进行一种符合科学原理和准则的综述研究。本书所要达到 
的目的是形成这样一种综述研究 ：它可 以被其他人重复使用，能够 
得到学者们一致认可，并在一个具有建设性的模式中聚焦争议。 
最重要的是，这种方法的使用者们在完成综述研究时，会感觉到他 
们的研究具有知识性，并相信进一步的基础研究会对该领域有所 
贡献。 

在本书的翻译过程中，感谢中国人民大学黄刚博士、文雅博 
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士、徐建文博士、陈许亚博士，首都经济贸易大学王彦鹏博士，中国 
青年政治学院硕士研究生王旭坤和杨峥威的帮助。另外中国人民 
大学硕士研究生韩禄和崔蕾也参与了本书的校对工作，在此，向他 
们表示感谢。特别感谢中国青年政治学院陆玉林教授对本书的翻 
译提出的宝贵建议。衷心感谢重庆大学出版社雷少波先生为此书 
的出版所付出的辛勤劳作。 

翻译著作是一件难事，由于本书是一本方法指南，是一本工具 
书，在翻译本书时，译者尽可能尊重作者的原意，但自知才识疏浅， 
勉力而为，错谬之处还请学界同仁和读者们批评指正。 

译者 



万卷方法总书目 


万卷 方法是 我国第-套系统介绍社会科学研究方法的大型丛书.来中同社科院、北京 
大学等研究机构和高校的两 A 余名学者参与了丛书的写作和翻译 T 作。至今已出版图 
书 60 多个品种，其中绝大多数是 2007 年以来出版的新书- 
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63 科学决策方 法：从 社会科学研究到政策 
分析 

沃恩著沈崇麟译 
书号 :7-5624_3669-X 

64 研究设计与社会测量导引（第 6 版） 

米勒著风笑天译 
书号 :978-7-5624-3295-1 
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为了建设好“万卷方法”，更好地服务学界，现由重庆大学 
出版社和人大经济论坛做出决定，凡购买重庆大学出版社的万 
卷方法系列图书的读者，填写以下信息调查表（复印即可），邮 
寄给我们 （400030 重庆大学出版社林佳木），经过认证后，我们 
将会赠送人大经济论坛币100个（可免费下载丛书相关学习资 
料并与教师及学友进行交流 h 


读者情况调査表 

姓名 


单位 


联系电话 


Email 


论坛 ID 


使用书籍 


购买渠道 


对丛书建设的建议 


邮政地址（邮编） 



人大经济论坛 

国内最大的经济、管理、金融、统计类在线教育网站 


人大经济论坛 （ 网址： http :// www . pinggu . org ) 依托中国人 
民大学经济学院，于2003年成立，致力于推动经济学科的进 
步，传播优秀教育资源，目前已经发展成为国内最大的经济、 
管理、金融、统计类的在线教育和咨询网站，也是国内最活跃和 
最具影响力的经济类网站。 

1. 拥有国内经济类教育网站最多的关注人数，注册用户以 
百万计，日均数十万经济相关人士访问本站。 

2. 是国内最丰富的经管类教育资源共享数据库和发布 
平台。 

3. 论坛给所有会员提供学术交流与讨论的平台，同时也有 
网络社交 SNS 的空间，经管百科提供了丰富专业的经管类在线 
词典，数据定制和数据处理分析服务是您做实证研究的好帮 
手，免费的经济金融数据库使您不再为数据发愁，更有完善的 
经管统计类培训和教学相关软件，只要您是学习、研究或从事 
经管类行业，人大经济论坛就能满足您的需要！ 
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